
布什梦醒机关转,万念丛生一念牵。
医库灯深检索夜,群机初动海生烟。
话说第十六回中,微卷藏影,光盘开库,一份许可证合同把读者的手指挡在按钮之外。知识已能被压缩、出售、检索,但“检索”二字还未真正显出它的野心。人不只想知道某本书在何处,也想知道某个问题牵连哪些文章、哪些证据、哪些前人思路。书架的路是直的,思想的路却常常曲折。
在机器检索登场之前,先有一群做梦的人。
Paul Otlet 与 Henri La Fontaine 曾推动世界书目和 Mundaneum。卡片、索引、分类、国际合作,在他们手里像要搭成一座纸上世界。Otlet 想象人类知识可以被拆成条目、卡片和关系,再由远方读者通过通信请求获得答案。那不是今天的互联网,却有一种纸做的网络气息。世界太大,他便想给世界做总目录。
Suzanne Briet 又问了一个更刁钻的问题:什么算文献?一只在动物园被记录、分类、研究的羚羊,是否也成为文献?这个问题听起来像故意逗人,却把图书馆和文献学从“书本中心”推开一步。若一件事物被记录、被组织、被用于证明,它便可能进入知识系统。图书馆技术史由此不再只管纸页,也要管证据如何变成可引用之物。
这一问后来越走越远。实验数据、照片、录音、标本、网页、软件、社交媒体帖子、传感器日志,都可能在某种条件下成为文献。图书馆若只盯着装订成册的书,便会错过现代知识最活跃的许多形态。Briet 把问题问得古怪,正好让后人不敢太安稳。所谓馆藏,未必都有封面;所谓阅读,未必只用眼睛逐字读。
H. G. Wells 则想象 World Brain。这个世界脑不是一间馆,而是一种全球知识组织的乌托邦:人类将事实、思想和教育资源汇聚起来,使文明不至于被无知和战争拖垮。Wells 是作家,想象常带文学光泽;但文学有时比工程更早看见方向。世界若要共同思考,必须先有共同记忆。
这些梦都还带着纸的气味。真正让机器进入检索深处的,是二十世纪中叶以后的计算机、索引、统计和学术信息爆炸。Calvin Mooers 提出并推广 information retrieval 一词。这个词看似普通,却把查找从图书馆柜台和书目学手册中抽出来,送进机器与算法的时代。信息不再只是馆藏对象,也是可以被系统处理、比较、返回的单位。
1945年,Vannevar Bush 发表《As We May Think》,设想 Memex。那是一台假想的个人知识机器,利用微缩资料和关联路径,让使用者能按联想建立 trails。人读一篇文章,想到另一篇,再连到图像、注释、档案。Memex 最动人的地方,不在机器细节,而在它承认人的思考并非总按分类表走。人常从一念到另一念,从一页跳到另一页,从问题走到旁枝。
想象一台 Memex 摆在书房中。桌面有屏幕、按键和微缩资料。研究者读到一段话,按下按钮,把它与另一篇资料连接。多年后,他的学生沿这条路径前行,仿佛在前人脑中走过一段小径。小径不是目录号,也不是卡片抽屉,而是一串思维足迹。后来的超链接、个人知识库、网页收藏和引用网络,都能在这梦里看见一点影子。
与此同时,医学文献正在膨胀。医生、研究者、图书馆员都面临同一难题:论文太多,病名太多,药名太多,若仍靠手工索引和纸本检索,速度跟不上需求。美国国家医学图书馆的 MEDLARS 于二十世纪六十年代投入使用,把医学文献索引交给大型计算机处理。后来 MEDLINE 等系统继续发展,医学检索成为机器化信息服务的重要现场。
有一名医学文献检索员坐在终端或打印输出旁。医生来问某种药物与疾病的关系,检索员要把自然语言问题翻译成主题词、布尔逻辑和数据库策略。若词用得太宽,结果泛滥;若太窄,又漏掉关键研究。她不是医生,却要理解医学问题;她不是程序员,却要懂机器脾气。检索在这里成为一门手艺:把焦急的问题变成可执行的查询。
医学主题词表在此处显得要紧。同一种疾病有旧名、新名、俗名、拉丁名,不同作者写法不同;检索员若只靠自由词,常会漏失。受控词表像一张专业地图,把杂乱称呼归到可检索的道路上。可地图也要修订:新病出现,新药上市,旧概念改名,词表必须跟着医学前进。检索员手中握着的,不只是机器命令,也是不断更新的专业语言。
Eugene Garfield 又从另一侧开路。他推动 Science Citation Index,把“谁引用谁”变成可检索的网络。文章不再只是按主题排,也可按引用关系相互照见。一篇论文引用前人,又被后来者引用,学术世界便出现暗河。顺着暗河走,读者能找到概念如何传播、争论如何延续、某个发现如何被接住或遗忘。
某位年轻研究者原本只找到一篇综述,沿着参考文献向后追,找到奠基论文;再沿被引文献向前追,又找到最新争论。主题检索像在街上问路,引文检索则像沿脚印追人。两者相配,学术地图忽然有了纵深。读者不只看见文章写了什么,也看见它从哪里来,又被谁带往何处。
引文索引带来便利,也带来诱惑。引用可帮助发现关联,却也可能被当作声望数字;指标可辅助判断,却也可能压扁复杂贡献。Garfield 打开的门,后来通向影响因子、评价体系和学术竞争。图书馆与信息系统常如此:它们给人寻找道路,也可能改变人走路的姿势。
Gerard Salton 与 SMART 系统则把检索推入更数学的空间。词可以有权重,文档可以变成向量,相似度可以计算。读者输入查询,机器不必只按精确匹配返回,也可判断哪些文档“更近”。这一步看似冷冰冰,却让后来的搜索引擎、推荐系统、语义检索和向量数据库有了远祖。知识不再只是排在架上,也被放进一片抽象空间,彼此按距离相望。
布尔检索像开关,AND、OR、NOT 一落,结果便按规则进退;向量检索则更像衡量远近,不必每个词都完全相同,也能判断相似。前者清楚,后者灵活;前者便于解释,后者更会容纳模糊。图书馆员和信息检索研究者长期在这两种性情之间调和。读者的问题本来就有清有浊,机器若只会一种回答,便难免偏执。
有一台想做梦的微缩胶片机器,若能看见这一切,大约会羡慕。它只能一格格放大影像,而新机器开始比较词、统计权重、追踪引用、连接路径。可再新的机器,也离不开人的问题。没有医生的问题,MEDLARS 只是库;没有研究者的好奇,引文索引只是网;没有读者的不确定,向量空间也只是空坐标。
本回的事件,不是一台机器突然醒来,而是许多旧愿望在机器中找到新身体。Otlet 的世界书目、Briet 的文献边界、Wells 的世界脑、Bush 的联想机器、Mooers 的信息检索、Garfield 的引文网络、Salton 的向量空间,都围着同一个问题转:当知识太多,人怎样找到与自己问题相邻的东西?
这问题至今未解尽。分类给位置,目录给入口,检索给路径,引文给关系,向量给亲疏。每种方法都照亮一面,也遮住一面。读者若只信分类,会错过横跨学科的暗桥;只信关键词,会被同词异义捉弄;只信引文,会追随权威的脚步;只信向量,又可能说不清为何相近。真正成熟的图书馆,总要让多种道路并存。
夜里,医学检索员合上检索记录,机器仍在处理批量索引。远处某个研究者读到一篇旧文,又沿引用找到另一篇;另一处实验室里,词频和权重在程序中变成数字。人类把寻找交给机器,却也把新的疑问交给自己:机器找回来的,是否就是我们真正需要的?
本回写到这里,检索已从柜前、架间、纸本索引走向机器。下一回,文本本身将脱离纸壳,变成纯字符在网络前夜流动。一个人会把《独立宣言》键入主机,Project Gutenberg 将以近乎天真的信念说:公共领域的书,应当自由复制,自由传播。
正是:梦机关中连万念,医库灯下动群机。欲知哈特如何录独宣开电卷、古腾堡计划怎样放群书,且看第十八回“哈特录独宣开电卷,古腾堡计划放群书”。
检索虽能穷万卷,机心未若人心亲。
且从向量寻归路,待把全文付电轮。

留下评论