图书馆技术史:从泥板甲骨到量子词元|第二十二回:关键词排阵争先后 向量海藏意辨亲疏

第二十二回 关键词排阵争先后 向量海藏意辨亲疏 主题插图
第二十二回 关键词排阵争先后 向量海藏意辨亲疏|主题插图

词海排阵争先后,向量藏意辨亲疏。
一搜便得千重链,再点方知万卷书。

话说第二十一回中,一页手稿千重可近,万馆图像同法相通。图像能被放大、标注、引用,文化遗产在屏幕上有了可共同观看的细节。可读者来到更大的网络世界,首先遇见的往往不是手稿页,也不是图书馆门户,而是一个空白搜索框。框中一闪一闪的光标,像在问:你要找什么?

搜索框看似谦卑,实则权势很大。读者输入几个词,机器返回一串结果。谁排在前,谁沉到后,谁被看见,谁被忘记,常在一瞬之间决定。图书馆目录曾把读者带到书架,搜索引擎则把读者带入一片更广阔、更喧闹、也更容易被操纵的注意力空间。

早期检索多靠关键词和布尔逻辑。AND、OR、NOT 像三枚小印,盖下去,文档或进或退。若问得清楚,布尔检索干净利落;若问题模糊,它便显得冷硬。读者说“我想找关于城市老人孤独和社区服务的研究”,机器却要你拆成词,决定哪些必须出现,哪些可以任选。人的问题像一团云,布尔逻辑要把云剪成方块。

图书馆数据库又添许多细法:词组检索要给短语加引号,截词符能把 policy、policies 一并收来,字段限定可只查题名、作者或主题,受控词表则提醒读者“你说的词,目录里也许另有说法”。一位新生在检索框里输入“老人孤独”,馆员请他试试“社会隔离”“老年人服务”“社区支持”。词换了,门也换了。检索并非只问机器,也是在同自己的语言商量。

Karen Spärck Jones 的贡献在这里发亮。她提出并发展 IDF 思想:一个词若在许多文档中都出现,区分力便低;一个词若较少出现,却出现在某些文档中,反而更能帮助判断主题。tf-idf 后来成为信息检索的基础方法之一。说得直白些,机器不只数一个词出现几次,也要看这个词有多“稀罕”。稀罕不是高贵,而是有助于分辨。

这个思想也教人谦虚。检索不是寻找最响亮的词,而是寻找最能区分的词。读者若搜“历史”,会被海量结果淹没;若加上地点、年代、人物和方法,水面才渐渐分开。馆员教读者换词、加词、删词,看似小技巧,其实是在教一种现代读书术:问题要有边,答案才有形。

想象一间实验室里,研究者把文档化成词表,词表化成数字。常见词像“the”“of”“研究”“问题”,到处都有,不能让它们指挥结果;专业词、地名、人名、概念词则可能把文档区分开来。词不再只是词,也成了权重。文字被称量,检索开始有了统计的秤。

Gerard Salton 的向量空间传统在前回已露面,到这里更显影响。文档可以被表示成向量,查询也可以表示成向量,两者之间有远近。读者输入的不是精确钥匙,而是一种方向;机器在空间里寻找相近者。这样,检索不必只靠完全相同的词,也能处理相似、相关和部分匹配。书架上的邻近由分类号决定,向量海中的邻近则由统计和模型决定。

可网页世界比图书馆更乱。任何人都能发布,链接到处生长,页面质量参差。Larry Page 和 Sergey Brin 提出的 PageRank,把网页链接看作一种投票和权威网络。若许多重要页面指向某页,那页可能更重要。链接不只是道路,也成为评价信号。网页从散乱文本,变成可计算的关系图。

图书馆员对此并不陌生。引文索引早已告诉学界,谁引用谁、哪篇文章被频繁引用,能够显示知识关系;PageRank 把这种关系感搬到网页海洋中。只是学术引用尚有期刊、作者和同行规范,网页链接则更野,更快,也更易被商业策略拨弄。关系一旦可计算,关系也会被经营。

这个想法很有力,也很危险。有力处在于它利用网络自身结构,帮助读者在海量页面中找到较有价值者;危险处在于,排序一旦影响流量,便会有人研究如何讨好排序。SEO 从业者、广告商、内容农场、平台策略、推荐算法,陆续进入搜索结果背后。读者以为自己看见“最相关”,其实也看见商业、链接、优化和平台权力交织后的结果。

有一页网页,内容扎实,却无人链接,便沉在深处;另一页标题夸张,链接众多,反而浮在前面。算法不是恶人,却有偏好;偏好一旦规模化,便改变公共知识的能见度。图书馆分类表带着时代偏见,搜索排序也带着数据偏见和商业激励。旧问题换了新衣,仍要人清醒看待。

语义搜索又进一步。机器不只看词面,还试图表示意义。embedding 把词、句子、段落或文档放入高维空间,相近意义在空间中靠近。读者问“如何让老年人更容易获得社区医疗”,机器也许能找到不含完全相同词语却讨论“基层健康服务可及性”的文档。向量海变得更柔软,也更难解释。结果为何相近?机器未必能用人满意的话说明。

所谓 embedding,并不是把“意义”完整装进一个匣子,而是把大量上下文里的相似用法压成数字坐标。它善于发现近邻,却不天然懂得真伪;善于寻找相似,却不一定知道哪一条证据更可靠。向量数据库则像一座新式密库,收的不是书脊和卡片,而是一片片文本、图像或音频的数字影子。读者的问题也被化作向量,投进库中,先找相近片段,再交给后面的系统处理。

走到这里,人工智能时代的门已在前方发亮。大模型、语义检索、推荐系统和向量数据库,都继承了这些检索传统,又把它们推向生成。搜索引擎给你一列结果,大模型则可能直接给你一段回答。前者像带你到书架前,后者像替你先读一遍再开口。便利巨大,风险也随之变大:若它读错、漏读、乱编,读者未必知道该去哪里核对。

所以,图书馆在这里不能退场。图书馆的训练,恰是来源、版本、证据、权威控制、权限和可复核。关键词检索教我们提问要清楚,PageRank 教我们关系会影响可见性,向量检索教我们意义可以被计算,大模型则迫使我们追问:答案从哪里来?能否指出出处?是否越过授权?有没有遗漏弱势声音?这些问题,下一回将正面展开。

有一名搜索工程师夜里查看日志。她看见千万次查询,有人找药物副作用,有人找古诗出处,有人找移民文件,有人找失踪亲人的旧报纸。每个查询都是一个小小愿望。她调参数时,影响的不只是点击率,也可能影响一个人找到答案的机会。算法在机房里运行,结果却落在人生里。

日志也有隐私。查询词常暴露疾病、债务、身份、信仰和恐惧。搜索系统若只把日志当优化燃料,便会把读者最脆弱的瞬间变成数据矿。图书馆传统中的读者隐私,在搜索时代更显珍贵。知道别人问过什么,本身就是权力;少保存、慎使用、明示规则,也是一种服务。

也有一位图书馆员在读者旁边,看他把同一问题先问目录,再问数据库,再问网页搜索,再问大模型。每个入口给出不同答案。馆员没有急着裁判,而是带他比较:哪个有出处,哪个有全文,哪个只是摘要,哪个可能受广告影响,哪个缺少日期,哪个需要回到原文。搜索时代的信息素养,不是教人按哪个按钮,而是教人看见按钮背后的秩序。

第二十二回写到这里,关键词、链接和向量已经把知识入口改造成算法空间。下一回,机器将不只返回文档,还要开口作答。图书馆必须给它套上证据缰绳:文档从哪里来,片段如何选,回答怎样生成,引用能否复核,权限如何遵守,错误如何纠正。若说搜索框是问路,RAG 便要求回答者带着路标回来。

正是:关键词里分轻重,向量海中辨远亲。欲知大模型开口如何须凭据、知识库回声怎样有来踪,且看第二十三回“大模型开口须凭据,知识库回声有来踪”。

排序虽由算法定,亲疏终是人心初。
且从词海寻归路,待问模型口有无。



留下评论