图书馆技术史：从泥板甲骨到量子词元｜第十七回：布什梦机关连万念医库启检索动群机

第十七回布什梦机关连万念医库启检索动群机主题插图 — 第十七回布什梦机关连万念医库启检索动群机｜主题插图

布什梦醒机关转，万念丛生一念牵。
医库灯深检索夜，群机初动海生烟。

话说第十六回中，微卷藏影，光盘开库，一份许可证合同把读者的手指挡在按钮之外。知识已能被压缩、出售、检索，但“检索”二字还未真正显出它的野心。人不只想知道某本书在何处，也想知道某个问题牵连哪些文章、哪些证据、哪些前人思路。书架的路是直的，思想的路却常常曲折。

在机器检索登场之前，先有一群做梦的人。

Paul Otlet 与 Henri La Fontaine 曾推动世界书目和 Mundaneum。卡片、索引、分类、国际合作，在他们手里像要搭成一座纸上世界。Otlet 想象人类知识可以被拆成条目、卡片和关系，再由远方读者通过通信请求获得答案。那不是今天的互联网，却有一种纸做的网络气息。世界太大，他便想给世界做总目录。

Suzanne Briet 又问了一个更刁钻的问题：什么算文献？一只在动物园被记录、分类、研究的羚羊，是否也成为文献？这个问题听起来像故意逗人，却把图书馆和文献学从“书本中心”推开一步。若一件事物被记录、被组织、被用于证明，它便可能进入知识系统。图书馆技术史由此不再只管纸页，也要管证据如何变成可引用之物。

这一问后来越走越远。实验数据、照片、录音、标本、网页、软件、社交媒体帖子、传感器日志，都可能在某种条件下成为文献。图书馆若只盯着装订成册的书，便会错过现代知识最活跃的许多形态。Briet 把问题问得古怪，正好让后人不敢太安稳。所谓馆藏，未必都有封面；所谓阅读，未必只用眼睛逐字读。

H. G. Wells 则想象 World Brain。这个世界脑不是一间馆，而是一种全球知识组织的乌托邦：人类将事实、思想和教育资源汇聚起来，使文明不至于被无知和战争拖垮。Wells 是作家，想象常带文学光泽；但文学有时比工程更早看见方向。世界若要共同思考，必须先有共同记忆。

这些梦都还带着纸的气味。真正让机器进入检索深处的，是二十世纪中叶以后的计算机、索引、统计和学术信息爆炸。Calvin Mooers 提出并推广 information retrieval 一词。这个词看似普通，却把查找从图书馆柜台和书目学手册中抽出来，送进机器与算法的时代。信息不再只是馆藏对象，也是可以被系统处理、比较、返回的单位。

1945年，Vannevar Bush 发表《As We May Think》，设想 Memex。那是一台假想的个人知识机器，利用微缩资料和关联路径，让使用者能按联想建立 trails。人读一篇文章，想到另一篇，再连到图像、注释、档案。Memex 最动人的地方，不在机器细节，而在它承认人的思考并非总按分类表走。人常从一念到另一念，从一页跳到另一页，从问题走到旁枝。

想象一台 Memex 摆在书房中。桌面有屏幕、按键和微缩资料。研究者读到一段话，按下按钮，把它与另一篇资料连接。多年后，他的学生沿这条路径前行，仿佛在前人脑中走过一段小径。小径不是目录号，也不是卡片抽屉，而是一串思维足迹。后来的超链接、个人知识库、网页收藏和引用网络，都能在这梦里看见一点影子。

与此同时，医学文献正在膨胀。医生、研究者、图书馆员都面临同一难题：论文太多，病名太多，药名太多，若仍靠手工索引和纸本检索，速度跟不上需求。美国国家医学图书馆的 MEDLARS 于二十世纪六十年代投入使用，把医学文献索引交给大型计算机处理。后来 MEDLINE 等系统继续发展，医学检索成为机器化信息服务的重要现场。

有一名医学文献检索员坐在终端或打印输出旁。医生来问某种药物与疾病的关系，检索员要把自然语言问题翻译成主题词、布尔逻辑和数据库策略。若词用得太宽，结果泛滥；若太窄，又漏掉关键研究。她不是医生，却要理解医学问题；她不是程序员，却要懂机器脾气。检索在这里成为一门手艺：把焦急的问题变成可执行的查询。

医学主题词表在此处显得要紧。同一种疾病有旧名、新名、俗名、拉丁名，不同作者写法不同；检索员若只靠自由词，常会漏失。受控词表像一张专业地图，把杂乱称呼归到可检索的道路上。可地图也要修订：新病出现，新药上市，旧概念改名，词表必须跟着医学前进。检索员手中握着的，不只是机器命令，也是不断更新的专业语言。

Eugene Garfield 又从另一侧开路。他推动 Science Citation Index，把“谁引用谁”变成可检索的网络。文章不再只是按主题排，也可按引用关系相互照见。一篇论文引用前人，又被后来者引用，学术世界便出现暗河。顺着暗河走，读者能找到概念如何传播、争论如何延续、某个发现如何被接住或遗忘。

某位年轻研究者原本只找到一篇综述，沿着参考文献向后追，找到奠基论文；再沿被引文献向前追，又找到最新争论。主题检索像在街上问路，引文检索则像沿脚印追人。两者相配，学术地图忽然有了纵深。读者不只看见文章写了什么，也看见它从哪里来，又被谁带往何处。

引文索引带来便利，也带来诱惑。引用可帮助发现关联，却也可能被当作声望数字；指标可辅助判断，却也可能压扁复杂贡献。Garfield 打开的门，后来通向影响因子、评价体系和学术竞争。图书馆与信息系统常如此：它们给人寻找道路，也可能改变人走路的姿势。

Gerard Salton 与 SMART 系统则把检索推入更数学的空间。词可以有权重，文档可以变成向量，相似度可以计算。读者输入查询，机器不必只按精确匹配返回，也可判断哪些文档“更近”。这一步看似冷冰冰，却让后来的搜索引擎、推荐系统、语义检索和向量数据库有了远祖。知识不再只是排在架上，也被放进一片抽象空间，彼此按距离相望。

布尔检索像开关，AND、OR、NOT 一落，结果便按规则进退；向量检索则更像衡量远近，不必每个词都完全相同，也能判断相似。前者清楚，后者灵活；前者便于解释，后者更会容纳模糊。图书馆员和信息检索研究者长期在这两种性情之间调和。读者的问题本来就有清有浊，机器若只会一种回答，便难免偏执。

有一台想做梦的微缩胶片机器，若能看见这一切，大约会羡慕。它只能一格格放大影像，而新机器开始比较词、统计权重、追踪引用、连接路径。可再新的机器，也离不开人的问题。没有医生的问题，MEDLARS 只是库；没有研究者的好奇，引文索引只是网；没有读者的不确定，向量空间也只是空坐标。

本回的事件，不是一台机器突然醒来，而是许多旧愿望在机器中找到新身体。Otlet 的世界书目、Briet 的文献边界、Wells 的世界脑、Bush 的联想机器、Mooers 的信息检索、Garfield 的引文网络、Salton 的向量空间，都围着同一个问题转：当知识太多，人怎样找到与自己问题相邻的东西？

这问题至今未解尽。分类给位置，目录给入口，检索给路径，引文给关系，向量给亲疏。每种方法都照亮一面，也遮住一面。读者若只信分类，会错过横跨学科的暗桥；只信关键词，会被同词异义捉弄；只信引文，会追随权威的脚步；只信向量，又可能说不清为何相近。真正成熟的图书馆，总要让多种道路并存。

夜里，医学检索员合上检索记录，机器仍在处理批量索引。远处某个研究者读到一篇旧文，又沿引用找到另一篇；另一处实验室里，词频和权重在程序中变成数字。人类把寻找交给机器，却也把新的疑问交给自己：机器找回来的，是否就是我们真正需要的？

本回写到这里，检索已从柜前、架间、纸本索引走向机器。下一回，文本本身将脱离纸壳，变成纯字符在网络前夜流动。一个人会把《独立宣言》键入主机，Project Gutenberg 将以近乎天真的信念说：公共领域的书，应当自由复制，自由传播。

正是：梦机关中连万念，医库灯下动群机。欲知哈特如何录独宣开电卷、古腾堡计划怎样放群书，且看第十八回“哈特录独宣开电卷，古腾堡计划放群书”。

检索虽能穷万卷，机心未若人心亲。
且从向量寻归路，待把全文付电轮。

Let's Make AGI Real

留下评论取消回复

图书馆技术史：从泥板甲骨到量子词元｜第十七回：布什梦机关连万念 医库启检索动群机

分享到：

留下评论 取消回复

图书馆技术史：从泥板甲骨到量子词元｜第十七回：布什梦机关连万念医库启检索动群机

留下评论取消回复