图书馆技术史：从泥板甲骨到量子词元｜第二十三回：大模型开口须凭据知识库回声有来踪

第二十三回大模型开口须凭据知识库回声有来踪主题插图 — 第二十三回大模型开口须凭据知识库回声有来踪｜主题插图

大模型开口说今古，知识库回声有故踪。
万卷虽能随口出，一言须有凭依重。

话说第二十二回中，关键词排阵，向量辨亲疏。读者在搜索框前问路，机器或给书目，或给网页，或给一串相近片段。可到了大模型兴起以后，机器不再只把路指出来，它竟能开口作答。它说得流畅，转折周全，语气安稳，仿佛一位饱读书卷的夜班馆员。读者听得欢喜，馆员却先皱了眉：话说得好，不等于来处可靠。

有一座大学图书馆，试用一名智能体馆员。学生问：“二十世纪初中国公共图书馆事业如何受欧美影响？”屏幕微亮，智能体先未回答，只在后台查权限、查馆藏、查数据库、查本校订阅、查公开书库。学生催道：“你直接说不行吗？”智能体回得很慢：“无来源，不作结论。”

这句话听来倔强，却是图书馆给大模型上的第一道缰绳。

大模型自身像一座学过许多话语的城，城墙里藏着训练时留下的统计记忆。它能续写、改写、归纳、翻译，也能把不同材料揉成顺口段落。RAG 的意思，却是让这座城在回答之前先派人出城查问，把外部知识库中的材料取回，再据此说话。研究者曾把这种办法称作把参数记忆与非参数记忆合用；馆员听来，倒像老规矩换了新衣：开口之前，先查书。

第一层是馆藏与授权。并非所有资料都能同样使用。有的书进入公共领域，可全文展示；有的电子书只许本校师生阅读；有的数据库允许人读，不许机器批量抓取；有的论文可用于课堂，不许拿来训练模型。过去读者只问“我能不能看”，现在还要问“机器能不能读、能不能检索、能不能摘要、能不能生成”。智能体馆员若不先过这一关，后面的聪明都可能变成越界。

第二层是数据治理。旧书经 OCR 转成文本，论文有 PDF 与 HTML 两种形态，档案有题名、日期、地点、人物、版本与来源。数据馆员要清洗错字，切分段落，保留页码，记录版本，绑定权限，把“这段话来自哪本书哪一页”牢牢钉住。若只把全文切成碎片丢进向量库，日后回答虽然顺滑，却可能找不回原书。图书馆最怕这种失忆的聪明。

数据治理还要给语料写履历。一本书为何入库，版权状态如何，OCR 质量几分，是否含图表，是否经过人工校对，哪些字段可信，哪些字段只是机器猜测，都要留在数据卡上。某些材料可供问答，某些只能供检索，某些只能显示题录，某些可供无障碍转换。智能体看见的不是一锅杂烩，而是一排排有身份、有边界、有来历的材料。

第三层是检索。智能体收到问题，先把问题拆成可查的词，也化成向量。关键词检索擅长找人名、书名、年代；向量检索擅长找意义相近的段落；混合检索把二者并用，再由重排序模型把更贴切、更权威、更有权限的材料放到前面。它不是一跃入云，而是先在书架、数据库和知识库之间来回走动。

复杂问题还需改写和分解。读者问“公共图书馆怎样改变城市底层青年的命运”，系统不能只抓“命运”二字，而要拆出公共图书馆、城市青年、教育机会、社会流动、移民社区、夜校、职业培训等小问。每个小问各自检索，再合并材料。重排序像老馆员的目光，把标题党、重复片段、过旧版本和无来源摘要往后放，把原文、综述、权威馆藏和可核对页码推到前面。

第四层才轮到生成。大模型读到检索来的片段，把它们放进上下文，再组织成回答。它像一个极会说话的书记，擅长润色、归纳、比较、转述。可它也有旧疾：资料不足时会猜，语义相近时会混，问题诱导时会顺着说，引用模糊时会编出貌似存在的来源。人们叫它幻觉，馆员却觉得这名字太轻巧。若在医学、法律、历史出处上错了，幻觉也会砸伤真实的人。

第五层是证据。智能体馆员回答每一句关键判断，都要能回到片段、页码、出处、版本和访问时间。它在答案旁挂上引用，不是装饰，而是让读者能沿着绳子回到井边。证据链审计员偶尔抽查：这句话是否真的由引文支持？引文是否断章取义？版本是否正确？权限是否允许展示？若查不到，答案便被退回重写。

证据还要受考试。回答中有多少关键句带来源，来源是否真的支持结论，引用是否覆盖不同立场，模型有没有把相邻段落错配，遇到无材料问题是否肯退让，都是评估指标。图书馆不只测“答得像不像”，更测“能不能复查”。若一个系统每次都答得漂亮，却常把出处牵错，馆员宁可让它慢些、短些，也不许它假装稳妥。

第六层是服务。研究生需要综述，智能体可帮他列出核心文献、比较观点、标出争议；本科生写作业，它可提示哪些来源太弱，哪些需要原文核对；馆员做馆藏评估，它可汇总某领域使用情况和缺口；视障读者需要长文摘要，它可在授权范围内转换格式。图书馆的价值不只在“给答案”，更在“给可负责任的答案”。

服务还要分清读者身份与任务边界。同一问题，课堂作业只能给检索建议和资料比较，不能替学生完成论证；医生查证据要优先系统综述和指南，不能把网络闲谈混入；地方史研究者找旧报，要保留版面和日期，不可只给摘要；馆员内部做决策，系统可汇总使用数据，却不能替人决定砍掉冷门馆藏。智能体越能干，越要学会在不同场合换不同规矩。

一日，有位教授问智能体：“请评价韦棣华对中国近代图书馆教育的影响。”机器先检出英文传记、中文论文、旧报影像、馆史材料，又把人物与沈祖荣、文化图书馆专科学校、武昌文华图书馆等实体接在一张小图上。它没有急着下断语，而是先给出材料簇：教育线、制度线、人员流动线、女性传教士与中国图书馆事业交流线。教授看了，笑道：“这倒像个会做功课的学生。”

GraphRAG 便在这种地方显出用处。普通 RAG 常把若干片段送给模型，适合回答局部问题；若问题牵涉人物、机构、事件、时代和概念之间的关系，只靠相近片段容易见树不见林。图结构把人物、机构、地点、作品和主题连起来，再对社群和关系做摘要。它让机器不只捡拾句子，也看见材料之间的桥。

可桥也会搭错。实体识别会把同名者混为一人，关系抽取会把并列误作因果，摘要会把争议写成定论。数据馆员在旁边给每条边标来源、置信度和更新时间。图若没有出处，便成了漂亮蛛网；图若能回到证据，才像一张可行走的地图。

图中还有沉默的空白。某些人物没有留下自传，某些女性只在校史边角出现，某些地方馆只剩零散年报。智能体若把空白填满，反而可疑；若能把空白标出来，便有学术价值。教授看见图上几处灰色节点，问那是什么。数据馆员答：“不是不知道，而是知道自己不知道。这里需要档案，或者需要承认材料已失。”

夜深时，那名智能体馆员收到一个刁钻问题：“请证明某位历史人物从未读过某书。”它沉默片刻，答道：“现有材料不足以证明。可列出已知阅读记录、通信、藏书目录和同时代可能接触路径。”读者原想试它，反被这句“不足以证明”惊了一下。能说“不知道”的机器，比逢问必答的机器更接近图书馆。

第二天，馆员把这次回答收入训练案例。案例标题不是“成功回答”，而是“成功拒答”。旁边写着：缺乏反证时，不得把沉默写成事实；可提供调查路径，不可伪造结论。年轻馆员读到这里，忽然想起卡片目录时代的参考咨询记录。工具变了，老规矩仍在：帮读者走得更远，不等于替真相走捷径。

第二十三回写到这里，大模型已被请进馆中，却不能坐上主位。它要先问授权，再理数据，再做检索，再生成，再交证据，最后服务于人。下一回，图书馆的入口还会继续消隐。读者未必打开馆页，智能体却会在写作、课堂、实验、日程和个人知识工具中悄悄递上一盏灯。

正是：开口须凭千卷证，回声要认一源踪。欲知无平台处平台如何隐形、智能体中馆员怎样再世，且看第二十四回“无平台处平台隐形，智能体中馆员再世”。

生成虽易凭据难，幻觉如花过眼残。
且把证据链系紧，再向智能体里看。

Let's Make AGI Real

留下评论取消回复

图书馆技术史：从泥板甲骨到量子词元｜第二十三回：大模型开口须凭据 知识库回声有来踪

分享到：

留下评论 取消回复

图书馆技术史：从泥板甲骨到量子词元｜第二十三回：大模型开口须凭据知识库回声有来踪

留下评论取消回复