图书馆技术史：从泥板甲骨到量子词元｜第二十五回：版权墙前幽藏叹息算法镜里公义寻踪

第二十五回版权墙前幽藏叹息算法镜里公义寻踪主题插图 — 第二十五回版权墙前幽藏叹息算法镜里公义寻踪｜主题插图

版权墙前幽叹息，算法镜里觅公踪。
一墙之隔两重天，镜里分明镜外空。

话说第二十四回中，无平台处平台隐形，智能体中馆员再世。图书馆能力化作接口，进入课堂、实验、写作和个人工具。可接口越灵，墙也越清楚。旧日馆员买回一本书，读者可借可还；电子资源时代，馆员买来的常不是书，而是一段许可、一份合同、一个入口、一些不得越过的细字。

有一篇论文，读者可以在校园网内阅读全文，教师可以把链接放进课程平台，研究者可以下载引文数据，却未必能批量抓取全文做文本挖掘，更未必能把全文交给模型训练。学生听得茫然：“我能读，为什么机器不能读？我能摘录，为什么模型不能总结？”馆藏谈判员把合同摊开，指给他看：人读、课堂用、馆际传递、TDM、训练、商业再利用，各有边界。

同一篇文章，在系统里像穿了许多层衣。题录可公开，摘要可展示，全文限校园网，图表不得再发布，补充数据另有许可，机器批量读取需申请，训练用途未授权。馆员把这些状态做成矩阵，颜色像棋盘。学生看了半晌，叹道：“原来一篇论文不是一扇门，是一整座关卡。”馆员点头：“我们要做的，是让关卡可理解、可谈判，也尽量不把路全堵死。”

版权在 AI 时代不再只是“能不能复制”，还变成“谁有权让机器学习”。机器阅读权、训练语料权、文本与数据挖掘权、公共领域再利用权，彼此相邻，却并不相同。TDM 有时只是为了从文本中抽取统计模式和事实关系；训练模型则可能把大量作品转化为参数中的能力；生成回答又会把结果带回读者面前。每一步都像过桥，桥上写着不同规矩。

欧洲 DSM 指令把文本与数据挖掘列入制度讨论，研究组织和文化遗产机构在合法访问基础上获得一定例外，权利人也可在某些情形下保留权利。不同法域各有不同安排。图书馆站在中间，一边要争取研究与公共利益，一边要尊重作者、出版者和社群权益。它既不是任意开闸的水手，也不是只会锁门的守卫。

法律地域不同，系统却常常跨境。一个研究团队在亚洲，一套数据库在欧洲，云服务在北美，合作作者分布数国。合同条款、版权例外、个人信息保护和科研伦理交叠在一起。馆员不可能把每个问题都化成一句“可以”或“不可以”，却可以把风险分层：哪些是明确许可，哪些需申请，哪些应走安全环境，哪些不宜触碰。清楚，往往比豪迈更能保护研究。

公共领域作品看似最自由，也未必毫无问题。旧书版权到期，可扫描图像是否附带使用条款？殖民时期采集的照片能否随意训练视觉模型？民俗歌谣进入公共领域，是否仍牵涉社群尊严？公共领域不是无人之地。图书馆若只看法律年限，不看历史伤口，便会把开放做得粗糙。

孤儿作品又添一层雾。书还在版权期内，作者或权利人却难以找到；档案有价值，却无人敢开放；研究者想引用，馆员也只能谨慎评估风险。太谨慎，文化记忆沉睡；太冒进，权利可能受伤。AI 时代的孤儿作品更尴尬：人可在阅览室内看一眼，机器却不能把成千上万眼汇成模型。幽藏往往就这样形成，不是没有书，而是没有清楚的许可道路。

幽藏由此出现。许多知识存在，却不可计算；可见，却不可访问；可由人读，却不可被机器批量读；在目录中有记录，却在授权墙后沉默。它们像夜里的书影，读者知道那里有东西，算法却摸不到。模型若只吃得到开放网页、商业平台和少数强势语种材料，世界知识在它口中便会失衡。弱势语言、地方档案、小众学科、非正式知识，可能再次退到暗处。

算法偏见有时不是机器心坏，而是饭食不均。若训练语料多来自富裕地区、强势机构和热门平台，模型自然更熟悉它们的语气；若某些族群只在警务记录、殖民档案或猎奇报道中出现，模型便可能学到歪斜的形象。图书馆学早知分类表会带偏见，主题词会迟滞，目录会遗漏。AI 只是把这些老问题放大到更快、更广、更难察觉。

一名算法审计员打开日志，看见系统回答某个少数民族节日时，总引用旅游网页，不引用本社群机构的资料；回答女性科学家时，频频先提家庭身份；回答南方小语种文学时，材料稀少，语气却很肯定。她没有骂机器，只把问题记下：语料缺口、权重偏差、来源不均、不可见馆藏、缺少社群审核。

审计不能只靠感觉。系统要留下检索日志、使用权限、模型版本、提示模板、引用片段和用户反馈。若读者发现回答有误，应能申诉；若作者发现作品被不当使用，应能追查；若社群发现表述伤害，应有修正渠道。可解释性不必要求模型把每个参数讲清，却至少要说明材料从哪里来、规则如何用、何处由机器推断、何处需要人工判断。

算法公义还要看谁能纠错。若只有工程师能改系统，馆员、教师、学生和社群代表便只能站在门外抱怨。图书馆可设模型评议会，让不同学科、不同语言、不同身份的人定期抽查回答；可设红队演练，专门问难题、偏题和诱导题；可设申诉台，让被误写、误引、误分类的人有路可走。公义不是挂在墙上的格言，而是能按响的一枚铃。

版权律师与馆员常在谈判桌上相遇。出版方担心授权被模型吞没，馆方担心研究被过度封锁。馆员提出新的条款：允许非商业 TDM，保留安全环境，禁止输出大段原文，要求日志和删除机制，允许无障碍转换，明确教学摘要边界。合同不再只写并发用户数，也要写机器能做什么、不能做什么、出了错谁负责。

有时谈判像拉锯。出版方问：“若模型记住了我们的内容，谁来补偿？”馆员问：“若公共资助的研究不能被机器检索，谁来补偿社会？”作者问：“我的作品被用来训练一个我无法查看的系统，是否公平？”视障读者问：“若机器朗读和摘要被禁止，我又如何平等阅读？”这些问题没有一把钥匙，却迫使图书馆重新站到公共利益的前线。

有位公共领域守夜人，日日检查旧书开放状态。她不爱高声宣言，只把一条条记录修正：作者卒年，出版地，版本，权利说明，扫描来源。她知道，若公共领域被懒惰地标成“未知”，读者会退却；若未知权利被草率标成开放，别人会受伤。开放不是把门踹开，而是把门牌写清，把路灯点稳。

开放获取也不等于万事无忧。有的论文可读不可改，有的图像可教学不可商用，有的数据集要求署名，有的开放许可彼此不兼容。AI 系统若只看见“open”一词，便可能把细则吞掉。馆员于是把许可拆成机器可读的条件：能否下载，能否改编，能否商业使用，能否训练，能否再分发，是否要求署名，是否要求同样方式共享。法律文字变成可执行规则，才有可能进入智能服务。

到了这里，版权不再只是法学院的事，也不只是采购部的事。它变成检索排序、模型训练、读者服务、学术公平和文化记忆的共同底盘。哪一类知识能被机器顺利读到，哪一类知识只能在墙后沉默，未来答案便会偏向哪一边。馆员在合同页边写下小字：许可不是末节，是知识能否进入明日的门轴。

第二十五回写到这里，AI 图书馆已从聪明问题走入公义问题。机器能读什么，决定它能回答什么；它看不见谁，谁便可能在未来知识中失声。下一回，书本本身还要被拆得更细：词元、片段、实体、断言、来源、图谱与模拟，将把“书”的单位推向新的海潮。

正是：版权墙前书有影，算法镜里路求公。欲知词元海中群书如何碎影、语义潮里万象怎样重生，且看第二十六回“词元海中群书碎影，语义潮里万象重生”。

叹息虽轻终是痛，公踪虽远亦须寻。
且将碎片收将去，词元海里有真金。

Let's Make AGI Real

留下评论取消回复

图书馆技术史：从泥板甲骨到量子词元｜第二十五回：版权墙前幽藏叹息 算法镜里公义寻踪

分享到：

留下评论 取消回复

图书馆技术史：从泥板甲骨到量子词元｜第二十五回：版权墙前幽藏叹息算法镜里公义寻踪

留下评论取消回复