图书馆技术史：从泥板甲骨到量子词元｜第二十二回：关键词排阵争先后向量海藏意辨亲疏

第二十二回关键词排阵争先后向量海藏意辨亲疏主题插图 — 第二十二回关键词排阵争先后向量海藏意辨亲疏｜主题插图

词海排阵争先后，向量藏意辨亲疏。
一搜便得千重链，再点方知万卷书。

话说第二十一回中，一页手稿千重可近，万馆图像同法相通。图像能被放大、标注、引用，文化遗产在屏幕上有了可共同观看的细节。可读者来到更大的网络世界，首先遇见的往往不是手稿页，也不是图书馆门户，而是一个空白搜索框。框中一闪一闪的光标，像在问：你要找什么？

搜索框看似谦卑，实则权势很大。读者输入几个词，机器返回一串结果。谁排在前，谁沉到后，谁被看见，谁被忘记，常在一瞬之间决定。图书馆目录曾把读者带到书架，搜索引擎则把读者带入一片更广阔、更喧闹、也更容易被操纵的注意力空间。

早期检索多靠关键词和布尔逻辑。AND、OR、NOT 像三枚小印，盖下去，文档或进或退。若问得清楚，布尔检索干净利落；若问题模糊，它便显得冷硬。读者说“我想找关于城市老人孤独和社区服务的研究”，机器却要你拆成词，决定哪些必须出现，哪些可以任选。人的问题像一团云，布尔逻辑要把云剪成方块。

图书馆数据库又添许多细法：词组检索要给短语加引号，截词符能把 policy、policies 一并收来，字段限定可只查题名、作者或主题，受控词表则提醒读者“你说的词，目录里也许另有说法”。一位新生在检索框里输入“老人孤独”，馆员请他试试“社会隔离”“老年人服务”“社区支持”。词换了，门也换了。检索并非只问机器，也是在同自己的语言商量。

Karen Spärck Jones 的贡献在这里发亮。她提出并发展 IDF 思想：一个词若在许多文档中都出现，区分力便低；一个词若较少出现，却出现在某些文档中，反而更能帮助判断主题。tf-idf 后来成为信息检索的基础方法之一。说得直白些，机器不只数一个词出现几次，也要看这个词有多“稀罕”。稀罕不是高贵，而是有助于分辨。

这个思想也教人谦虚。检索不是寻找最响亮的词，而是寻找最能区分的词。读者若搜“历史”，会被海量结果淹没；若加上地点、年代、人物和方法，水面才渐渐分开。馆员教读者换词、加词、删词，看似小技巧，其实是在教一种现代读书术：问题要有边，答案才有形。

想象一间实验室里，研究者把文档化成词表，词表化成数字。常见词像“the”“of”“研究”“问题”，到处都有，不能让它们指挥结果；专业词、地名、人名、概念词则可能把文档区分开来。词不再只是词，也成了权重。文字被称量，检索开始有了统计的秤。

Gerard Salton 的向量空间传统在前回已露面，到这里更显影响。文档可以被表示成向量，查询也可以表示成向量，两者之间有远近。读者输入的不是精确钥匙，而是一种方向；机器在空间里寻找相近者。这样，检索不必只靠完全相同的词，也能处理相似、相关和部分匹配。书架上的邻近由分类号决定，向量海中的邻近则由统计和模型决定。

可网页世界比图书馆更乱。任何人都能发布，链接到处生长，页面质量参差。Larry Page 和 Sergey Brin 提出的 PageRank，把网页链接看作一种投票和权威网络。若许多重要页面指向某页，那页可能更重要。链接不只是道路，也成为评价信号。网页从散乱文本，变成可计算的关系图。

图书馆员对此并不陌生。引文索引早已告诉学界，谁引用谁、哪篇文章被频繁引用，能够显示知识关系；PageRank 把这种关系感搬到网页海洋中。只是学术引用尚有期刊、作者和同行规范，网页链接则更野，更快，也更易被商业策略拨弄。关系一旦可计算，关系也会被经营。

这个想法很有力，也很危险。有力处在于它利用网络自身结构，帮助读者在海量页面中找到较有价值者；危险处在于，排序一旦影响流量，便会有人研究如何讨好排序。SEO 从业者、广告商、内容农场、平台策略、推荐算法，陆续进入搜索结果背后。读者以为自己看见“最相关”，其实也看见商业、链接、优化和平台权力交织后的结果。

有一页网页，内容扎实，却无人链接，便沉在深处；另一页标题夸张，链接众多，反而浮在前面。算法不是恶人，却有偏好；偏好一旦规模化，便改变公共知识的能见度。图书馆分类表带着时代偏见，搜索排序也带着数据偏见和商业激励。旧问题换了新衣，仍要人清醒看待。

语义搜索又进一步。机器不只看词面，还试图表示意义。embedding 把词、句子、段落或文档放入高维空间，相近意义在空间中靠近。读者问“如何让老年人更容易获得社区医疗”，机器也许能找到不含完全相同词语却讨论“基层健康服务可及性”的文档。向量海变得更柔软，也更难解释。结果为何相近？机器未必能用人满意的话说明。

所谓 embedding，并不是把“意义”完整装进一个匣子，而是把大量上下文里的相似用法压成数字坐标。它善于发现近邻，却不天然懂得真伪；善于寻找相似，却不一定知道哪一条证据更可靠。向量数据库则像一座新式密库，收的不是书脊和卡片，而是一片片文本、图像或音频的数字影子。读者的问题也被化作向量，投进库中，先找相近片段，再交给后面的系统处理。

走到这里，人工智能时代的门已在前方发亮。大模型、语义检索、推荐系统和向量数据库，都继承了这些检索传统，又把它们推向生成。搜索引擎给你一列结果，大模型则可能直接给你一段回答。前者像带你到书架前，后者像替你先读一遍再开口。便利巨大，风险也随之变大：若它读错、漏读、乱编，读者未必知道该去哪里核对。

所以，图书馆在这里不能退场。图书馆的训练，恰是来源、版本、证据、权威控制、权限和可复核。关键词检索教我们提问要清楚，PageRank 教我们关系会影响可见性，向量检索教我们意义可以被计算，大模型则迫使我们追问：答案从哪里来？能否指出出处？是否越过授权？有没有遗漏弱势声音？这些问题，下一回将正面展开。

有一名搜索工程师夜里查看日志。她看见千万次查询，有人找药物副作用，有人找古诗出处，有人找移民文件，有人找失踪亲人的旧报纸。每个查询都是一个小小愿望。她调参数时，影响的不只是点击率，也可能影响一个人找到答案的机会。算法在机房里运行，结果却落在人生里。

日志也有隐私。查询词常暴露疾病、债务、身份、信仰和恐惧。搜索系统若只把日志当优化燃料，便会把读者最脆弱的瞬间变成数据矿。图书馆传统中的读者隐私，在搜索时代更显珍贵。知道别人问过什么，本身就是权力；少保存、慎使用、明示规则，也是一种服务。

也有一位图书馆员在读者旁边，看他把同一问题先问目录，再问数据库，再问网页搜索，再问大模型。每个入口给出不同答案。馆员没有急着裁判，而是带他比较：哪个有出处，哪个有全文，哪个只是摘要，哪个可能受广告影响，哪个缺少日期，哪个需要回到原文。搜索时代的信息素养，不是教人按哪个按钮，而是教人看见按钮背后的秩序。

第二十二回写到这里，关键词、链接和向量已经把知识入口改造成算法空间。下一回，机器将不只返回文档，还要开口作答。图书馆必须给它套上证据缰绳：文档从哪里来，片段如何选，回答怎样生成，引用能否复核，权限如何遵守，错误如何纠正。若说搜索框是问路，RAG 便要求回答者带着路标回来。

正是：关键词里分轻重，向量海中辨远亲。欲知大模型开口如何须凭据、知识库回声怎样有来踪，且看第二十三回“大模型开口须凭据，知识库回声有来踪”。

排序虽由算法定，亲疏终是人心初。
且从词海寻归路，待问模型口有无。

Let's Make AGI Real

留下评论取消回复

图书馆技术史：从泥板甲骨到量子词元｜第二十二回：关键词排阵争先后 向量海藏意辨亲疏

分享到：

留下评论 取消回复

图书馆技术史：从泥板甲骨到量子词元｜第二十二回：关键词排阵争先后向量海藏意辨亲疏

留下评论取消回复