图书馆技术史:从泥板甲骨到量子词元|第二十三回:大模型开口须凭据 知识库回声有来踪

第二十三回 大模型开口须凭据 知识库回声有来踪 主题插图
第二十三回 大模型开口须凭据 知识库回声有来踪|主题插图

大模型开口说今古,知识库回声有故踪。
万卷虽能随口出,一言须有凭依重。

话说第二十二回中,关键词排阵,向量辨亲疏。读者在搜索框前问路,机器或给书目,或给网页,或给一串相近片段。可到了大模型兴起以后,机器不再只把路指出来,它竟能开口作答。它说得流畅,转折周全,语气安稳,仿佛一位饱读书卷的夜班馆员。读者听得欢喜,馆员却先皱了眉:话说得好,不等于来处可靠。

有一座大学图书馆,试用一名智能体馆员。学生问:“二十世纪初中国公共图书馆事业如何受欧美影响?”屏幕微亮,智能体先未回答,只在后台查权限、查馆藏、查数据库、查本校订阅、查公开书库。学生催道:“你直接说不行吗?”智能体回得很慢:“无来源,不作结论。”

这句话听来倔强,却是图书馆给大模型上的第一道缰绳。

大模型自身像一座学过许多话语的城,城墙里藏着训练时留下的统计记忆。它能续写、改写、归纳、翻译,也能把不同材料揉成顺口段落。RAG 的意思,却是让这座城在回答之前先派人出城查问,把外部知识库中的材料取回,再据此说话。研究者曾把这种办法称作把参数记忆与非参数记忆合用;馆员听来,倒像老规矩换了新衣:开口之前,先查书。

第一层是馆藏与授权。并非所有资料都能同样使用。有的书进入公共领域,可全文展示;有的电子书只许本校师生阅读;有的数据库允许人读,不许机器批量抓取;有的论文可用于课堂,不许拿来训练模型。过去读者只问“我能不能看”,现在还要问“机器能不能读、能不能检索、能不能摘要、能不能生成”。智能体馆员若不先过这一关,后面的聪明都可能变成越界。

第二层是数据治理。旧书经 OCR 转成文本,论文有 PDF 与 HTML 两种形态,档案有题名、日期、地点、人物、版本与来源。数据馆员要清洗错字,切分段落,保留页码,记录版本,绑定权限,把“这段话来自哪本书哪一页”牢牢钉住。若只把全文切成碎片丢进向量库,日后回答虽然顺滑,却可能找不回原书。图书馆最怕这种失忆的聪明。

数据治理还要给语料写履历。一本书为何入库,版权状态如何,OCR 质量几分,是否含图表,是否经过人工校对,哪些字段可信,哪些字段只是机器猜测,都要留在数据卡上。某些材料可供问答,某些只能供检索,某些只能显示题录,某些可供无障碍转换。智能体看见的不是一锅杂烩,而是一排排有身份、有边界、有来历的材料。

第三层是检索。智能体收到问题,先把问题拆成可查的词,也化成向量。关键词检索擅长找人名、书名、年代;向量检索擅长找意义相近的段落;混合检索把二者并用,再由重排序模型把更贴切、更权威、更有权限的材料放到前面。它不是一跃入云,而是先在书架、数据库和知识库之间来回走动。

复杂问题还需改写和分解。读者问“公共图书馆怎样改变城市底层青年的命运”,系统不能只抓“命运”二字,而要拆出公共图书馆、城市青年、教育机会、社会流动、移民社区、夜校、职业培训等小问。每个小问各自检索,再合并材料。重排序像老馆员的目光,把标题党、重复片段、过旧版本和无来源摘要往后放,把原文、综述、权威馆藏和可核对页码推到前面。

第四层才轮到生成。大模型读到检索来的片段,把它们放进上下文,再组织成回答。它像一个极会说话的书记,擅长润色、归纳、比较、转述。可它也有旧疾:资料不足时会猜,语义相近时会混,问题诱导时会顺着说,引用模糊时会编出貌似存在的来源。人们叫它幻觉,馆员却觉得这名字太轻巧。若在医学、法律、历史出处上错了,幻觉也会砸伤真实的人。

第五层是证据。智能体馆员回答每一句关键判断,都要能回到片段、页码、出处、版本和访问时间。它在答案旁挂上引用,不是装饰,而是让读者能沿着绳子回到井边。证据链审计员偶尔抽查:这句话是否真的由引文支持?引文是否断章取义?版本是否正确?权限是否允许展示?若查不到,答案便被退回重写。

证据还要受考试。回答中有多少关键句带来源,来源是否真的支持结论,引用是否覆盖不同立场,模型有没有把相邻段落错配,遇到无材料问题是否肯退让,都是评估指标。图书馆不只测“答得像不像”,更测“能不能复查”。若一个系统每次都答得漂亮,却常把出处牵错,馆员宁可让它慢些、短些,也不许它假装稳妥。

第六层是服务。研究生需要综述,智能体可帮他列出核心文献、比较观点、标出争议;本科生写作业,它可提示哪些来源太弱,哪些需要原文核对;馆员做馆藏评估,它可汇总某领域使用情况和缺口;视障读者需要长文摘要,它可在授权范围内转换格式。图书馆的价值不只在“给答案”,更在“给可负责任的答案”。

服务还要分清读者身份与任务边界。同一问题,课堂作业只能给检索建议和资料比较,不能替学生完成论证;医生查证据要优先系统综述和指南,不能把网络闲谈混入;地方史研究者找旧报,要保留版面和日期,不可只给摘要;馆员内部做决策,系统可汇总使用数据,却不能替人决定砍掉冷门馆藏。智能体越能干,越要学会在不同场合换不同规矩。

一日,有位教授问智能体:“请评价韦棣华对中国近代图书馆教育的影响。”机器先检出英文传记、中文论文、旧报影像、馆史材料,又把人物与沈祖荣、文化图书馆专科学校、武昌文华图书馆等实体接在一张小图上。它没有急着下断语,而是先给出材料簇:教育线、制度线、人员流动线、女性传教士与中国图书馆事业交流线。教授看了,笑道:“这倒像个会做功课的学生。”

GraphRAG 便在这种地方显出用处。普通 RAG 常把若干片段送给模型,适合回答局部问题;若问题牵涉人物、机构、事件、时代和概念之间的关系,只靠相近片段容易见树不见林。图结构把人物、机构、地点、作品和主题连起来,再对社群和关系做摘要。它让机器不只捡拾句子,也看见材料之间的桥。

可桥也会搭错。实体识别会把同名者混为一人,关系抽取会把并列误作因果,摘要会把争议写成定论。数据馆员在旁边给每条边标来源、置信度和更新时间。图若没有出处,便成了漂亮蛛网;图若能回到证据,才像一张可行走的地图。

图中还有沉默的空白。某些人物没有留下自传,某些女性只在校史边角出现,某些地方馆只剩零散年报。智能体若把空白填满,反而可疑;若能把空白标出来,便有学术价值。教授看见图上几处灰色节点,问那是什么。数据馆员答:“不是不知道,而是知道自己不知道。这里需要档案,或者需要承认材料已失。”

夜深时,那名智能体馆员收到一个刁钻问题:“请证明某位历史人物从未读过某书。”它沉默片刻,答道:“现有材料不足以证明。可列出已知阅读记录、通信、藏书目录和同时代可能接触路径。”读者原想试它,反被这句“不足以证明”惊了一下。能说“不知道”的机器,比逢问必答的机器更接近图书馆。

第二天,馆员把这次回答收入训练案例。案例标题不是“成功回答”,而是“成功拒答”。旁边写着:缺乏反证时,不得把沉默写成事实;可提供调查路径,不可伪造结论。年轻馆员读到这里,忽然想起卡片目录时代的参考咨询记录。工具变了,老规矩仍在:帮读者走得更远,不等于替真相走捷径。

第二十三回写到这里,大模型已被请进馆中,却不能坐上主位。它要先问授权,再理数据,再做检索,再生成,再交证据,最后服务于人。下一回,图书馆的入口还会继续消隐。读者未必打开馆页,智能体却会在写作、课堂、实验、日程和个人知识工具中悄悄递上一盏灯。

正是:开口须凭千卷证,回声要认一源踪。欲知无平台处平台如何隐形、智能体中馆员怎样再世,且看第二十四回“无平台处平台隐形,智能体中馆员再世”。

生成虽易凭据难,幻觉如花过眼残。
且把证据链系紧,再向智能体里看。



留下评论