
巨眼初开吞纸海,群馆同心护文魂。
一机扫尽千年卷,万目争看旧墨痕。
话说第十八回中,哈特录独宣,古腾堡计划放群书。文字脱去纸壳,化作纯文本,在网络前夜轻轻远行。可世上旧书何止万千,若都靠志愿者一字一字输入,纵有耐心,也难敌纸海无边。于是,扫描仪睁开巨眼,书页在光下翻动,纸本馆藏开始大规模变成图像、文本和数据。
大规模数字化的现场,并不总像读者想象中那样安静。书被送到扫描站,工作人员戴上手套,检查装订,调好支架与灯光。书若脆弱,不能压得太平;书若厚重,页缝容易阴影;书若纸色发黄,图像和 OCR 都要受影响。机器看书,先要学会不伤书。一本旧书躺在扫描架上,像一位年老者被请到强光前,既要被看见,又不能被折损。
Google Books 曾以惊人规模推动图书扫描。大学和研究型图书馆把大量馆藏送入数字化流程,扫描图像进入 Google Books,合作馆也获得数字副本。读者第一次在搜索框中输入一句话,便可能找到一本百年前出版、从未听说过的旧书。全文检索像在纸海中投下一张细网,许多沉在书库深处的句子忽然浮起。
扫描流程本身像一条小型生产线。书到达,登记条码,检查版权状态,拍摄封面、题名页、正文、附录,有时还要拍空白页以保留页序。图像文件生成后,还要裁切、纠偏、压缩、生成衍生格式,再与元数据绑定。读者最后看见一个“阅读”按钮,不会知道按钮背后有多少次翻页、命名、校验和搬运。数字化越像魔法,越说明其中的手工被藏得很好。
可是,浮起的不总是清澈文字。OCR 把图像转成文本,最怕旧字体、污点、折痕、歪斜、双栏、脚注和异体字。一个“rn”会被认成“m”,一个旧式长 s 会被误作 f,一页边注可能混入正文。中文古籍和早期报刊更有自己的难处:竖排、繁简、版框、批注、缺损,都会让机器犹豫。读者看到搜索结果,以为机器读懂了书;其实机器常只是勉强认出了影子。
版面分析也是难关。报纸有多栏,有广告,有插图,有续篇,有跨页标题;古籍有版心、鱼尾、眉批、行款和夹注;学术书有脚注、图表和索引。若机器把广告接到正文,把脚注插入句中,把页码当文字,后来的检索和数据分析便会偏。数字化不是把页面拍清便止步,还要教机器知道哪里是正文,哪里只是页面的边声。
有一本旧书,题名页完好,正文却有几页被水渍染过。扫描后,OCR 把一段地名认错,又把页眉混入正文。多年后,一名研究者检索某个罕见词,误入这本书。她打开图像,才发现文本层像醉后抄写。她没有生气,反而笑了笑,把图像放大,自己辨认。数字化给她送来了书,也给她送来了一份新的校勘活。
HathiTrust 的出现,使许多研究型图书馆获得了共同保存数字副本的制度形式。它不是单个公司的搜索产品,而更像群馆共同托起的数字书库。Google 扫描、Internet Archive 扫描、各馆本地扫描,都可能进入这样的长期保存与访问框架。HathiTrust 的价值不只在“有多少本”,也在“谁来长期负责”“哪些可读”“哪些可检索”“哪些只可供特定用途”。
群馆共同保存,还需要共同信任。一本书的数字副本进入共享库,文件要校验,元数据要对齐,权利状态要判断,访问规则要落实。谁负责纠错,谁负责备份,谁说明缺页,谁处理投诉,都要有制度。数字书库若只靠热情,几年便会散;若有共同规则,才可能从项目变成基础设施。
在 HathiTrust 这样的环境里,同一本书可能有多个扫描副本。某馆的副本页边完整,另一馆的副本图像更清楚,第三个副本缺了折页。数据馆员要处理重复、版本、版权、质量和来源。数字世界并不因为可复制就自动整齐,相反,复制越多,整理越重要。旧日版本学在纸页间辨版,今日数字馆员也要在文件、校验值和元数据之间辨认身份。
版权问题随之而来。公共领域作品可以较自由地开放,仍在版权期内的作品则受到访问限制。Google Books 引发过广泛法律争议,HathiTrust 也曾在合理使用、全文检索、无障碍访问和保存方面面对司法考验。法律在这里像一道闸门,不全开,也不全关。它决定了读者能不能看全文,机器能不能读全文,馆员能不能为保存制作副本。
Internet Archive 与 Brewster Kahle 则带来另一种气质。互联网档案馆从网页保存起步,后来扩展到图书、音频、视频、软件等多种数字文化资源。Kahle 的理想带着强烈的公共访问色彩:网络世界也会消失,网页也会死亡,数字文化需要档案馆。它的书籍扫描和数字借阅实践也引发过激烈版权争议。开放与授权、保存与市场、公共使命与法律边界,在这里正面相撞。
扫描操作员、版权律师、数据馆员、无障碍服务馆员、研究者,各自站在不同位置。操作员关心书页是否拍清;律师关心是否可开放;数据馆员关心文件格式、校验值和元数据;无障碍馆员关心盲人读者能否获得文本;研究者关心能不能下载语料做分析。一页书进入数字世界后,围着它的人反而更多。
盲人读者在这里尤其重要。一本仍受版权保护的书,普通读者也许只能看片段,视障读者却可能需要可朗读文本才能平等阅读。保存、检索和无障碍服务在法理与伦理上交会。若数字副本只能给机器索引,却不能帮助不能看见纸页的人,图书馆便少尽了一分责任。技术的尺度,常要到弱处才量得出来。
数字副本也让纸本馆藏有了新的命运。有些馆把数字化与共享印本计划结合起来,确认哪些纸本仍需长期保存,哪些馆承诺保留实体卷册。数字图像不能完全替代纸本,因为纸张、装订、边注、藏印、气味和物质证据仍有学术价值;但数字副本能减少翻阅损耗,也让远方读者先见其貌。纸与数不必相互驱逐,它们可以各守一端。
有位数据馆员夜里检查校验值。文件名一串串,图像、OCR、元数据、权限记录分在不同目录。外人看见这些,只觉冷冰冰;她却知道每个文件夹背后都有一本书,一次扫描,一次权利判断,一次保存承诺。数字保存不是把文件放进服务器便完事,还要迁移、备份、修复、记录来源和监控损坏。硬盘若沉默地坏掉,书也会在无声处再死一次。
第十九回写到这里,扫描巨眼已经吞下纸海的一角。它使旧书重现,也制造错字;它打开远方访问,也碰见版权墙;它让机器能检索,也让人重新思考什么叫保存。下一回,数字对象不一定要离开本馆,却能通过元数据进入公共广场。地方照片、手稿、器物、地图和录音,将在 DPLA、Europeana 这类聚合平台中彼此相遇。
正是:巨眼扫书吞纸海,群馆立信护文魂。欲知遗产元数据如何开广场、通接口众馆藏怎样现真身,且看第二十回“聚遗产元数据开广场,通接口众馆藏现真身”。
扫描虽能吞万页,信藏犹赖众人扶。
且将影像存高库,再向元数据道途。

留下评论