
版权墙前幽叹息,算法镜里觅公踪。
一墙之隔两重天,镜里分明镜外空。
话说第二十四回中,无平台处平台隐形,智能体中馆员再世。图书馆能力化作接口,进入课堂、实验、写作和个人工具。可接口越灵,墙也越清楚。旧日馆员买回一本书,读者可借可还;电子资源时代,馆员买来的常不是书,而是一段许可、一份合同、一个入口、一些不得越过的细字。
有一篇论文,读者可以在校园网内阅读全文,教师可以把链接放进课程平台,研究者可以下载引文数据,却未必能批量抓取全文做文本挖掘,更未必能把全文交给模型训练。学生听得茫然:“我能读,为什么机器不能读?我能摘录,为什么模型不能总结?”馆藏谈判员把合同摊开,指给他看:人读、课堂用、馆际传递、TDM、训练、商业再利用,各有边界。
同一篇文章,在系统里像穿了许多层衣。题录可公开,摘要可展示,全文限校园网,图表不得再发布,补充数据另有许可,机器批量读取需申请,训练用途未授权。馆员把这些状态做成矩阵,颜色像棋盘。学生看了半晌,叹道:“原来一篇论文不是一扇门,是一整座关卡。”馆员点头:“我们要做的,是让关卡可理解、可谈判,也尽量不把路全堵死。”
版权在 AI 时代不再只是“能不能复制”,还变成“谁有权让机器学习”。机器阅读权、训练语料权、文本与数据挖掘权、公共领域再利用权,彼此相邻,却并不相同。TDM 有时只是为了从文本中抽取统计模式和事实关系;训练模型则可能把大量作品转化为参数中的能力;生成回答又会把结果带回读者面前。每一步都像过桥,桥上写着不同规矩。
欧洲 DSM 指令把文本与数据挖掘列入制度讨论,研究组织和文化遗产机构在合法访问基础上获得一定例外,权利人也可在某些情形下保留权利。不同法域各有不同安排。图书馆站在中间,一边要争取研究与公共利益,一边要尊重作者、出版者和社群权益。它既不是任意开闸的水手,也不是只会锁门的守卫。
法律地域不同,系统却常常跨境。一个研究团队在亚洲,一套数据库在欧洲,云服务在北美,合作作者分布数国。合同条款、版权例外、个人信息保护和科研伦理交叠在一起。馆员不可能把每个问题都化成一句“可以”或“不可以”,却可以把风险分层:哪些是明确许可,哪些需申请,哪些应走安全环境,哪些不宜触碰。清楚,往往比豪迈更能保护研究。
公共领域作品看似最自由,也未必毫无问题。旧书版权到期,可扫描图像是否附带使用条款?殖民时期采集的照片能否随意训练视觉模型?民俗歌谣进入公共领域,是否仍牵涉社群尊严?公共领域不是无人之地。图书馆若只看法律年限,不看历史伤口,便会把开放做得粗糙。
孤儿作品又添一层雾。书还在版权期内,作者或权利人却难以找到;档案有价值,却无人敢开放;研究者想引用,馆员也只能谨慎评估风险。太谨慎,文化记忆沉睡;太冒进,权利可能受伤。AI 时代的孤儿作品更尴尬:人可在阅览室内看一眼,机器却不能把成千上万眼汇成模型。幽藏往往就这样形成,不是没有书,而是没有清楚的许可道路。
幽藏由此出现。许多知识存在,却不可计算;可见,却不可访问;可由人读,却不可被机器批量读;在目录中有记录,却在授权墙后沉默。它们像夜里的书影,读者知道那里有东西,算法却摸不到。模型若只吃得到开放网页、商业平台和少数强势语种材料,世界知识在它口中便会失衡。弱势语言、地方档案、小众学科、非正式知识,可能再次退到暗处。
算法偏见有时不是机器心坏,而是饭食不均。若训练语料多来自富裕地区、强势机构和热门平台,模型自然更熟悉它们的语气;若某些族群只在警务记录、殖民档案或猎奇报道中出现,模型便可能学到歪斜的形象。图书馆学早知分类表会带偏见,主题词会迟滞,目录会遗漏。AI 只是把这些老问题放大到更快、更广、更难察觉。
一名算法审计员打开日志,看见系统回答某个少数民族节日时,总引用旅游网页,不引用本社群机构的资料;回答女性科学家时,频频先提家庭身份;回答南方小语种文学时,材料稀少,语气却很肯定。她没有骂机器,只把问题记下:语料缺口、权重偏差、来源不均、不可见馆藏、缺少社群审核。
审计不能只靠感觉。系统要留下检索日志、使用权限、模型版本、提示模板、引用片段和用户反馈。若读者发现回答有误,应能申诉;若作者发现作品被不当使用,应能追查;若社群发现表述伤害,应有修正渠道。可解释性不必要求模型把每个参数讲清,却至少要说明材料从哪里来、规则如何用、何处由机器推断、何处需要人工判断。
算法公义还要看谁能纠错。若只有工程师能改系统,馆员、教师、学生和社群代表便只能站在门外抱怨。图书馆可设模型评议会,让不同学科、不同语言、不同身份的人定期抽查回答;可设红队演练,专门问难题、偏题和诱导题;可设申诉台,让被误写、误引、误分类的人有路可走。公义不是挂在墙上的格言,而是能按响的一枚铃。
版权律师与馆员常在谈判桌上相遇。出版方担心授权被模型吞没,馆方担心研究被过度封锁。馆员提出新的条款:允许非商业 TDM,保留安全环境,禁止输出大段原文,要求日志和删除机制,允许无障碍转换,明确教学摘要边界。合同不再只写并发用户数,也要写机器能做什么、不能做什么、出了错谁负责。
有时谈判像拉锯。出版方问:“若模型记住了我们的内容,谁来补偿?”馆员问:“若公共资助的研究不能被机器检索,谁来补偿社会?”作者问:“我的作品被用来训练一个我无法查看的系统,是否公平?”视障读者问:“若机器朗读和摘要被禁止,我又如何平等阅读?”这些问题没有一把钥匙,却迫使图书馆重新站到公共利益的前线。
有位公共领域守夜人,日日检查旧书开放状态。她不爱高声宣言,只把一条条记录修正:作者卒年,出版地,版本,权利说明,扫描来源。她知道,若公共领域被懒惰地标成“未知”,读者会退却;若未知权利被草率标成开放,别人会受伤。开放不是把门踹开,而是把门牌写清,把路灯点稳。
开放获取也不等于万事无忧。有的论文可读不可改,有的图像可教学不可商用,有的数据集要求署名,有的开放许可彼此不兼容。AI 系统若只看见“open”一词,便可能把细则吞掉。馆员于是把许可拆成机器可读的条件:能否下载,能否改编,能否商业使用,能否训练,能否再分发,是否要求署名,是否要求同样方式共享。法律文字变成可执行规则,才有可能进入智能服务。
到了这里,版权不再只是法学院的事,也不只是采购部的事。它变成检索排序、模型训练、读者服务、学术公平和文化记忆的共同底盘。哪一类知识能被机器顺利读到,哪一类知识只能在墙后沉默,未来答案便会偏向哪一边。馆员在合同页边写下小字:许可不是末节,是知识能否进入明日的门轴。
第二十五回写到这里,AI 图书馆已从聪明问题走入公义问题。机器能读什么,决定它能回答什么;它看不见谁,谁便可能在未来知识中失声。下一回,书本本身还要被拆得更细:词元、片段、实体、断言、来源、图谱与模拟,将把“书”的单位推向新的海潮。
正是:版权墙前书有影,算法镜里路求公。欲知词元海中群书如何碎影、语义潮里万象怎样重生,且看第二十六回“词元海中群书碎影,语义潮里万象重生”。
叹息虽轻终是痛,公踪虽远亦须寻。
且将碎片收将去,词元海里有真金。

留下评论