
元数据聚开广场,接口初通现本真。
万馆藏形同一照,千馆遗产共相亲。
话说第十九回中,扫描巨眼吞纸海,群馆立信护文魂。旧书被拍成图像,文字被 OCR 拆成可检索之影。可文化遗产世界不只有书。照片、地图、手稿、录音、海报、器物、地方档案、口述历史,各有馆藏,各有系统,各有小小门户。若读者不知道那座小馆的名字,藏品便像灯在远巷中亮着,却无人路过。
于是,元数据开始聚集。
元数据不是藏品本身。它只是题名、作者、年代、地点、主题、描述、权利、缩略图、链接和机构名称。听起来像门牌、路标和介绍信,远不如原件动人。可没有这些门牌,远方读者根本不知道原件存在。DPLA 和 Europeana 这样的开放文化遗产平台,正是把各馆、档案馆、博物馆、美术馆的元数据汇到一处,让分散对象进入公共入口。
先看一个小镇历史馆。馆中有一张旧照片,拍的是一群人在河边合影。照片背后铅笔写着年份和几个人名,馆员又补充了地名、活动、捐赠者和权利说明。原件没有离开小镇,仍在恒温盒中静卧。可当这条元数据通过州级聚合平台进入 DPLA,远方研究者搜索某条河流、某类移民社群、某年洪水,忽然看见它。照片没有旅行,影子却走进广场。
聚合的奇妙处正在此间:平台未必拥有对象,却能改变对象被发现的命运。地方馆员做的一条记录,经过转换、清洗、映射和 API,出现在国家或洲际平台上。原本孤立的小灯,被接到更大的灯串中。读者看见搜索结果,点击进入,最终仍回到原馆页面。聚合者像路口引路人,不夺走房屋,却把街道接通。
DPLA 的形成,背后有美国公共数字图书馆的理想,也有 Robert Darnton、Dan Cohen 等人参与推动的公共文化讨论。它不是一座单体图书馆,而是网络化入口。Europeana 则在欧洲文化遗产数字化和跨国合作中成长,把多语、多国、多机构的元数据接入共同平台。两者处境不同,却都面对同一难题:如何让分散文化记忆在数字公共空间中可见、可用、可再发现。
聚合并不轻松。各机构字段不同,日期写法不同,地名层级不同,主题词不同,权利声明也不同。一个馆写“ca. 1920”,另一个写“约1920年”,第三个只写“20世纪初”。机器若不懂,便把相近之物拆散。元数据聚合者的工作,有时像翻译者,有时像调停人,有时像清扫者。她不修复原件,却修复对象之间的道路。
元数据映射常是最费心的活。地方系统里的“creator”到聚合平台中也许对应“dc:creator”,本馆的“coverage”可能要拆成时间和地点,本馆自由填写的权利说明又要转换成标准化权利 URI。一个字段搬错,搜索结果便变形;一个日期不规范,时间线便漏点。聚合平台的华丽入口,底下常是许多表格、脚本和人工判断。
还有多语问题。Europeana 面对的不只是一国一语,题名、地名、人名和主题词常在不同语言之间移动。一个城市有旧名、新名、本地名和外文名;一个作者有本名、笔名、转写名;一个主题在不同国家又有不同传统。机器翻译能帮忙,却不能替代文化判断。聚合平台若要真正公共,便不能只让强势语言站在入口中央。
有一位开发者来到 DPLA 或 Europeana 的 API 前。她不只想搜索网页,而想把数据做成地图、时间线、课堂项目或数字展览。API 像一扇侧门,供程序而非眼睛进入。文化遗产于是从“可看”走向“可调用”。一批照片可被绘成迁徙地图,一组报纸可被做成时间轴,一批海报可被训练成视觉分析材料。元数据一旦开放,读者便不只是读者,也可能成为再组织者。
API 也会暴露数据的毛边。开发者把照片放到地图上,忽然发现许多地点只写“美国”或“欧洲”;做时间线时,发现大量对象只有“约十九世纪”;做人物网络时,又发现姓名拼写各异。她没有因此失望,反而把问题反馈给平台。开放数据的价值,有时正在让错误从暗处走到亮处,让更多人帮忙修路。
可开放也有边界。某些对象涉及个人隐私、族群记忆、殖民掠夺、宗教禁忌或版权限制。平台若只求越多越好,便可能把不该轻易展示的材料暴露出来。地方馆藏管理员有时比远方平台更懂对象的敏感处。数字公共广场不应只是热闹,也要有礼法。哪些能开放,如何说明来源,怎样尊重社群,都是元数据之外的伦理。
权利声明尤其重要。公共领域、版权保护、机构授权、非商业使用、未知权利,各种状态若不清楚,读者便不知能否引用、下载、再利用。Europeana 推动较规范的权利标识,DPLA 也重视清晰授权。权利字段像广场入口的告示牌:不是为了吓退人,而是让人知道怎样使用才不误伤他人。
聚合平台还让“馆、档、博、美”之间的边界变软。一本地方志在图书馆,一张手稿在档案馆,一件实物在博物馆,一幅画在美术馆,过去读者要分别登门。现在,一个主题可以横跨多类机构。研究某座城市,不只看书,也看地图、照片、口述录音、建筑图、票据和展览图像。知识对象从单一路径走向多源汇合。
一位教师准备课程,搜索“移民”“铁路”“家庭照片”。结果中既有国家级馆藏,也有小镇历史协会的照片;既有博物馆器物,也有口述历史片段。她把几件对象放进课堂,让学生比较同一事件在官方文件、私人照片和报纸报道中的不同面貌。平台并没有替她讲课,却把材料摆到一张桌上。教育的可能性,常在这种摆放中出现。
元数据也会犯错。照片中人物认错,地点误标,年代太宽,主题词陈旧,机器收割时字段错位。错误一旦聚合,便会被更大范围看见,也可能被更多人纠正。数字广场不是净土,而是可共同维护的街市。读者、研究者、馆员、开发者都可能发现问题。问题若能回流到原机构,聚合才不只是抽取,也成为合作。
有时,聚合平台还会带来意外重逢。某个家族在网上看到祖辈照片,补充姓名;某位地方史研究者认出街角建筑,指出地点误标;某个社群要求修改不恰当的旧称谓。元数据因此不再只是馆员单向写下的说明,也可能成为机构与公众之间的对话。对话若处理得好,记录会变得更准确;处理不好,旧伤也会被重新揭开。
这种对话需要回流机制。若公众只在聚合平台上留言,原馆永远收不到,错误仍会留在源头;若原馆修改后无法再次同步,广场上仍挂旧牌。数据管道要能进,也要能回。地方馆员、聚合平台和公众之间若形成循环,元数据便不是一次性搬运,而是长期照看。
第二十回写到这里,藏品未必移动,连接却已移动。DPLA、Europeana 和许多区域聚合平台,让元数据成为公共广场;API、开放数据和权利标识,让对象能被搜索、展示、调用和再利用。可若对象是高清手稿图像,仅有缩略图和描述还不够。研究者想放大、比对、标注、跨馆拼接,便需要另一套共同语言。
正是:元数据开千馆路,通接口现万藏身。欲知一页手稿如何千重可近、万馆图像怎样同法相通,且看第二十一回“一页手稿千重可近,万馆图像同法相通”。
广场虽阔犹难近,接口虽通未全真。
且向高清深处去,手稿千重一页新。

留下评论