图书馆技术史：从泥板甲骨到量子词元｜第十九回：扫书页巨眼吞纸海立信库群馆护文魂

第十九回扫书页巨眼吞纸海立信库群馆护文魂主题插图 — 第十九回扫书页巨眼吞纸海立信库群馆护文魂｜主题插图

巨眼初开吞纸海，群馆同心护文魂。
一机扫尽千年卷，万目争看旧墨痕。

话说第十八回中，哈特录独宣，古腾堡计划放群书。文字脱去纸壳，化作纯文本，在网络前夜轻轻远行。可世上旧书何止万千，若都靠志愿者一字一字输入，纵有耐心，也难敌纸海无边。于是，扫描仪睁开巨眼，书页在光下翻动，纸本馆藏开始大规模变成图像、文本和数据。

大规模数字化的现场，并不总像读者想象中那样安静。书被送到扫描站，工作人员戴上手套，检查装订，调好支架与灯光。书若脆弱，不能压得太平；书若厚重，页缝容易阴影；书若纸色发黄，图像和 OCR 都要受影响。机器看书，先要学会不伤书。一本旧书躺在扫描架上，像一位年老者被请到强光前，既要被看见，又不能被折损。

Google Books 曾以惊人规模推动图书扫描。大学和研究型图书馆把大量馆藏送入数字化流程，扫描图像进入 Google Books，合作馆也获得数字副本。读者第一次在搜索框中输入一句话，便可能找到一本百年前出版、从未听说过的旧书。全文检索像在纸海中投下一张细网，许多沉在书库深处的句子忽然浮起。

扫描流程本身像一条小型生产线。书到达，登记条码，检查版权状态，拍摄封面、题名页、正文、附录，有时还要拍空白页以保留页序。图像文件生成后，还要裁切、纠偏、压缩、生成衍生格式，再与元数据绑定。读者最后看见一个“阅读”按钮，不会知道按钮背后有多少次翻页、命名、校验和搬运。数字化越像魔法，越说明其中的手工被藏得很好。

可是，浮起的不总是清澈文字。OCR 把图像转成文本，最怕旧字体、污点、折痕、歪斜、双栏、脚注和异体字。一个“rn”会被认成“m”，一个旧式长 s 会被误作 f，一页边注可能混入正文。中文古籍和早期报刊更有自己的难处：竖排、繁简、版框、批注、缺损，都会让机器犹豫。读者看到搜索结果，以为机器读懂了书；其实机器常只是勉强认出了影子。

版面分析也是难关。报纸有多栏，有广告，有插图，有续篇，有跨页标题；古籍有版心、鱼尾、眉批、行款和夹注；学术书有脚注、图表和索引。若机器把广告接到正文，把脚注插入句中，把页码当文字，后来的检索和数据分析便会偏。数字化不是把页面拍清便止步，还要教机器知道哪里是正文，哪里只是页面的边声。

有一本旧书，题名页完好，正文却有几页被水渍染过。扫描后，OCR 把一段地名认错，又把页眉混入正文。多年后，一名研究者检索某个罕见词，误入这本书。她打开图像，才发现文本层像醉后抄写。她没有生气，反而笑了笑，把图像放大，自己辨认。数字化给她送来了书，也给她送来了一份新的校勘活。

HathiTrust 的出现，使许多研究型图书馆获得了共同保存数字副本的制度形式。它不是单个公司的搜索产品，而更像群馆共同托起的数字书库。Google 扫描、Internet Archive 扫描、各馆本地扫描，都可能进入这样的长期保存与访问框架。HathiTrust 的价值不只在“有多少本”，也在“谁来长期负责”“哪些可读”“哪些可检索”“哪些只可供特定用途”。

群馆共同保存，还需要共同信任。一本书的数字副本进入共享库，文件要校验，元数据要对齐，权利状态要判断，访问规则要落实。谁负责纠错，谁负责备份，谁说明缺页，谁处理投诉，都要有制度。数字书库若只靠热情，几年便会散；若有共同规则，才可能从项目变成基础设施。

在 HathiTrust 这样的环境里，同一本书可能有多个扫描副本。某馆的副本页边完整，另一馆的副本图像更清楚，第三个副本缺了折页。数据馆员要处理重复、版本、版权、质量和来源。数字世界并不因为可复制就自动整齐，相反，复制越多，整理越重要。旧日版本学在纸页间辨版，今日数字馆员也要在文件、校验值和元数据之间辨认身份。

版权问题随之而来。公共领域作品可以较自由地开放，仍在版权期内的作品则受到访问限制。Google Books 引发过广泛法律争议，HathiTrust 也曾在合理使用、全文检索、无障碍访问和保存方面面对司法考验。法律在这里像一道闸门，不全开，也不全关。它决定了读者能不能看全文，机器能不能读全文，馆员能不能为保存制作副本。

Internet Archive 与 Brewster Kahle 则带来另一种气质。互联网档案馆从网页保存起步，后来扩展到图书、音频、视频、软件等多种数字文化资源。Kahle 的理想带着强烈的公共访问色彩：网络世界也会消失，网页也会死亡，数字文化需要档案馆。它的书籍扫描和数字借阅实践也引发过激烈版权争议。开放与授权、保存与市场、公共使命与法律边界，在这里正面相撞。

扫描操作员、版权律师、数据馆员、无障碍服务馆员、研究者，各自站在不同位置。操作员关心书页是否拍清；律师关心是否可开放；数据馆员关心文件格式、校验值和元数据；无障碍馆员关心盲人读者能否获得文本；研究者关心能不能下载语料做分析。一页书进入数字世界后，围着它的人反而更多。

盲人读者在这里尤其重要。一本仍受版权保护的书，普通读者也许只能看片段，视障读者却可能需要可朗读文本才能平等阅读。保存、检索和无障碍服务在法理与伦理上交会。若数字副本只能给机器索引，却不能帮助不能看见纸页的人，图书馆便少尽了一分责任。技术的尺度，常要到弱处才量得出来。

数字副本也让纸本馆藏有了新的命运。有些馆把数字化与共享印本计划结合起来，确认哪些纸本仍需长期保存，哪些馆承诺保留实体卷册。数字图像不能完全替代纸本，因为纸张、装订、边注、藏印、气味和物质证据仍有学术价值；但数字副本能减少翻阅损耗，也让远方读者先见其貌。纸与数不必相互驱逐，它们可以各守一端。

有位数据馆员夜里检查校验值。文件名一串串，图像、OCR、元数据、权限记录分在不同目录。外人看见这些，只觉冷冰冰；她却知道每个文件夹背后都有一本书，一次扫描，一次权利判断，一次保存承诺。数字保存不是把文件放进服务器便完事，还要迁移、备份、修复、记录来源和监控损坏。硬盘若沉默地坏掉，书也会在无声处再死一次。

第十九回写到这里，扫描巨眼已经吞下纸海的一角。它使旧书重现，也制造错字；它打开远方访问，也碰见版权墙；它让机器能检索，也让人重新思考什么叫保存。下一回，数字对象不一定要离开本馆，却能通过元数据进入公共广场。地方照片、手稿、器物、地图和录音，将在 DPLA、Europeana 这类聚合平台中彼此相遇。

正是：巨眼扫书吞纸海，群馆立信护文魂。欲知遗产元数据如何开广场、通接口众馆藏怎样现真身，且看第二十回“聚遗产元数据开广场，通接口众馆藏现真身”。

扫描虽能吞万页，信藏犹赖众人扶。
且将影像存高库，再向元数据道途。

Let's Make AGI Real

留下评论取消回复

图书馆技术史：从泥板甲骨到量子词元｜第十九回：扫书页巨眼吞纸海 立信库群馆护文魂

分享到：

留下评论 取消回复

图书馆技术史：从泥板甲骨到量子词元｜第十九回：扫书页巨眼吞纸海立信库群馆护文魂

留下评论取消回复