
独立宣言键上敲,古腾堡后又新潮。
一编电卷开新纪,万卷公书上网霄。
话说第十七回中,布什梦机关连万念,医学文献入机器,检索之术从书架走向算法。可无论检索怎样聪明,若文本仍被纸壳紧紧抱住,机器能做的也有限。它可以索引题名、摘要和主题,却未必能触到全文。于是又有一件小事发生:有人把一篇文字亲手敲进计算机。
那一年是1971年。Michael Hart 在一台大型计算机上获得使用机会。他没有先输入宏伟百科,也没有先输入厚重经典,而是输入《美国独立宣言》。这份文本不长,公共领域,象征意味又重。它从纸上、印刷史上、政治史上走来,如今变成一串电子字符,在网络前夜静静发光。
此事若写成传奇,场面并不壮阔。没有巨大的扫描工程,没有豪华界面,没有云端平台。只有键盘、终端、主机、字符和一个近乎简单的念头:既然计算机可以复制文本,那么公共领域的文本应当尽可能自由传播。这个念头后来名为 Project Gutenberg。名字借古腾堡,是向印刷革命致意;方式却很新,字不再压在纸上,而在电子空间中复制。
想象 Hart 坐在终端前。屏幕简陋,字符朴素。每敲一行,文本便从人的手指进入机器。错字要改,换行要想,格式不能复杂。纸书里那些字体、边距、页码、装帧,此时大多退场,只剩文字骨架。电子文本的第一次迁徙,像把书的衣裳脱下,只让句子穿过门。
那份《独立宣言》变成电子文本后,并没有立刻获得今日意义上的广大读者。网络尚小,机器昂贵,能接触它的人有限。可种子不因土少而不是种子。早期电子文本的意义,不在当时下载量有多惊人,而在它证明了一个方向:文本可以不依赖印刷和邮寄而复制,公共领域可以拥有新的传播渠道。
这有损失,也有解放。失去版式,读者看不见原书样貌;获得纯文本,文件极小,容易复制,容易传输,容易被不同机器读取。一本书不再一定是一件物,也可以是一段可复制的字符序列。它没有书脊,却可以同时在许多人手里;没有纸页,却可被搜索、剪贴、朗读、重排。
Project Gutenberg 早期靠志愿者输入、校对、整理公共领域文本。志愿者的工作并不浪漫。他们面对旧书、键盘、OCR 错误或扫描文本,一字一字核对。某个标点是否保留,某个破折号怎样表示,诗行如何换行,章节标题如何标记,都要作决定。电子书看似轻,背后仍有许多低头的人。
纯文本还有一种近乎清贫的美德。它不挑机器,不依赖华丽软件,文件小,容易保存,也便于盲人读者借助朗读工具使用。可清贫也有代价:斜体、脚注、表格、插图、页码、字体和版式常被简化。志愿者每次取舍,都在问同一个问题:为了让文本走得更远,可以放下多少外衣?为了让证据更完整,又必须保留哪些骨节?
后来分布式校对让这件事更像众人合抄。一个人校一页,另一个人复核,第三个人整理格式。古代抄经人围灯而坐,现代志愿者隔着网络分工,姿态不同,耐心相近。某页旧书上一个模糊字母,可能让远方几个人反复比对。电子文本越容易复制,初始文本的准确便越重要;错字也会像印刷时代一样,跟着复制奔跑。
有一位志愿校对者,夜里打开文本。屏幕上是十九世纪小说,旁边放着原书图像。机器把“rn”认成“m”,把旧体字母认错,把页眉混进正文。她一处处改,眼睛发酸。别人读电子书时,只觉下载迅速;她知道每一处顺滑都曾有毛刺。数字文本的清洁,不是天生的,是有人擦出来的。
电子文本改变了“复制”的伦理。印刷时代,复制需要纸、墨、机器和成本;电子时代,一份文件可几乎无损地再生。公共领域因此获得新活力。尘封旧书不必等待重印,只要有人输入和校对,便可重新流通。古老文本像从书库中放出,走向学校、家庭、研究者和远方读者。
但这也带来新问题。什么书属于公共领域?不同国家版权年限不一,译本和注释可能另有权利,电子版本的整理者是否有新权益,平台能否限制再传播?自由流动不是没有边界,而是需要看清边界。Project Gutenberg 的朴素理想,后来要与复杂版权世界并行。
电子书也改变了图书馆。馆员过去处理的是实物:采购、编目、盖章、贴标、上架、修补。电子文本进入后,馆员还要处理文件格式、元数据、访问链接、长期保存、版本更新和读者设备。一本电子书可能没有“归还”动作,却有许可期限;没有缺页,却可能链接失效;没有霉斑,却可能格式过时。
有一册《傲慢与偏见》的电子文本,在不同平台上有不同面貌:纯文本、HTML、EPUB、PDF、扫描图像、带注释版、朗读版。读者说“我要这本书”,馆员要问:你要读,还是引用?要看原版页码,还是手机阅读?要公共领域英文原文,还是现代译本?电子书让一本书分出许多影子,影子越多,选择越自由,也越需要说明。
这也让“版本”变得更加活泼。一个志愿校对版改了错字,一个商业电子版加了导读,一个学术版保留异文,一个扫描版忠于页影却不便检索。四者都可叫同一本书,又都不是同一件东西。书目记录若只给一个题名,便像把四位亲戚合成一人。电子时代的目录,要比从前更会分辨这些影子。
格式也会老。今日能打开的文件,明日未必方便;今日流行的阅读器,过几年可能换代。纸书怕火水虫霉,电子书怕格式废弃、存储损坏、链接失效、平台关闭。数字保存并非把文件放进硬盘就万事大吉,还要迁移、校验、备份、记录来源和版本。电子书没有书页发黄,却也会在无声处失踪。
回看前文,Lubetzky 桌上的《哈姆雷特》问题又回来了。作品、版本、表达、载体,在电子时代更难装进一个简单盒子。Project Gutenberg 的纯文本是一种表达,扫描影像又是另一种证据,带排版的电子书是一种阅读便利,学术校勘本则另有重量。电子文本没有消灭书目问题,反而把它们照得更亮。
也有人担心,电子书会不会让图书馆失去意义。若文本可从网上下载,何必入馆?这个问题后来反复出现。可图书馆的价值从来不只是“这里有一本”。它还关心哪一本可靠,哪一版可引用,哪些文本属于公共领域,哪些有授权限制,怎样保存,怎样让弱者也能访问,怎样不让商业入口垄断阅读。电子文本越容易复制,可信组织反而越重要。
于是,编目又回来了。电子书需要题名、作者、版本、语言、格式、权利状态、永久链接、主题和摘要。若没有元数据,文件便像散落在海面的小瓶,可能漂得很远,却未必被需要的人找到。Project Gutenberg 的朴素文本,也需要目录入口;数字图书馆的华丽界面,也离不开背后记录。旧卡片柜的精神,在电子文本旁换了衣裳。
Hart 的理想带着一种早期网络气质:自由、共享、志愿、公共领域、低成本传播。它有天真处,也有光亮处。若没有这类天真,许多公共文化项目不会开始;若只有天真,又难以面对版权、质量、保存和可持续运营。图书馆恰在二者之间工作:既守护开放,也处理麻烦。
有一天,一个偏远地方的学生下载了公共领域文本。她所在学校没有大馆,家中也无多书。屏幕上的文字并不华丽,却足以让她读到远方时代的声音。电子书在此处显出最朴素的意义:它让某些原本不可能到达的书,轻轻抵达。文件很小,路却很长。
Project Gutenberg 之后,电子文本世界越来越宽。大学数字馆藏、开放获取期刊、在线文库、电子书商、阅读器、移动设备陆续出现。文本脱离纸壳,并不意味着纸书死亡,而是书籍多了一种身体。泥板、竹简、卷轴、册页、胶片、光盘、纯文本,都是知识临时借住的屋子。屋子换了,读者仍在寻找门。
本回写到这里,电子书像一粒种子落入网络前夜。再往后,扫描仪会翻动海量纸页,Google Books、HathiTrust、Internet Archive 等项目会让旧书大规模变成图像和可检索文本。那时问题会更大:机器看见了书页,却会认错字;法律允许人读,却未必允许机器读;图书馆保存纸书,也要保存数字副本和访问权。
夜深,Hart 输入的字符仍在远方复制。没有书架声,没有翻页声,只有文件从一台机器到另一台机器。古腾堡让文字借印刷扩散,Project Gutenberg 让文字借电子复制再度远行。两个古腾堡之间,隔着几百年,也隔着同一个愿望:让书不只留在少数人手里。
正是:哈特录文开电卷,古登堡名放群书。欲知扫书页巨眼如何吞纸海、立信库群馆怎样护文魂,且看第十九回“扫书页巨眼吞纸海,立信库群馆护文魂”。
电卷虽轻承万古,屏幕虽薄载千秋。
且将数字传天下,留待群书入网流。

留下评论