数字人文技术史考察(六)

4. 网络化与多媒体化:数字人文的拓展 (2000s)

进入21世纪,随着互联网技术的飞速发展和普及,数字人文迎来了网络化和多媒体化的新浪潮。大型在线文献平台的涌现、学术社交网络与地理空间分析工具的成熟,以及增强型电子书等新媒介形式的探索,共同拓展了数字人文的研究疆域与表现形态。

4.1. 2000s-:大型文献平台的涌现——DPLA、Europeana、美国记忆

2000年代见证了多个国家级乃至超国家级大型数字文献平台的建设与开放,它们旨在聚合来自不同文化机构(图书馆、档案馆、博物馆等)的数字化馆藏,通过统一的门户向全球用户提供便捷的访问服务。

●      美国数字公共图书馆(Digital Public Library of America, DPLA) 于2013年正式启动,其核心目标是汇集美国各州和地区数字图书馆的元数据记录,使得那些曾经分散存储于各地机构、甚至部分尚未在线化的珍贵文献资源(包括报纸、照片、信件、手稿、书籍、音视频资料等)能够通过一个单一的入口被检索和获取。DPLA强调其平台的开放性、数据的互操作性以及发展过程的社区驱动性。在技术架构上,DPLA主要聚合的是现有资源的元数据,其代码尽可能采用开源技术,并提供API(应用程序编程接口)供开发者利用其数据进行二次开发和创新应用。值得注意的是,DPLA的元数据模型(DPLA MAP)在核心部分借鉴并兼容了Europeana数据模型(EDM)。

●      Europeana 是欧盟委员会支持下的一项旗舰计划,致力于赋能欧洲文化遗产机构的数字化转型。它不仅仅是一个数字图书馆,更是一个旨在开发专业知识、工具和政策,以促进文化遗产领域创新伙伴关系的生态系统。Europeana的目标是让欧洲丰富的文化遗产(包括艺术品、书籍、音乐、档案文献等)更容易被公众用于教育、研究、创作和休闲娱乐,从而构建一个开放、博学和富有创造力的社会,并助力打造欧洲文化遗产的通用数据空间。其技术核心是Europeana数据模型(Europeana Data Model, EDM),这是一个高度灵活且可互操作的元数据框架,用于收集、连接和丰富来自不同成员国、不同类型文化机构的元数据。EDM基于语义网技术(如RDF),能够容纳并映射多种领域特定的元数据标准(如针对博物馆的LIDO、针对档案馆的EAD、针对图书馆的MARC等),并大力支持链接开放数据(Linked Open Data),从而实现文化遗产对象之间更深层次的语义关联。

●      美国记忆(American Memory) 是美国国会图书馆(Library of Congress)自1995年起推出的一个大型数字化项目,旨在向公众提供对其馆藏中具有历史意义的美国文献的数字化版本的在线访问。其内容包罗万象,涵盖了照片、手稿、地图、乐谱、书籍、口述历史、早期电影、录音等多种媒介形态的珍贵资料。美国记忆项目在建设初期,面临着缺乏专为数字图书馆内容创建、描述、交换或展示而设计的专用工具和统一标准的挑战,处理了包括二进制MARC记录、非EAD格式的查找辅助工具(finding aids)以及各种纸本和专有数据库格式的元数据。后续,国会图书馆也积极参与元数据标准的研发,例如开发了MODS(Metadata Object Description Schema),作为MARC21标准的XML子集,以适应网络环境下元数据描述的需求。

这些大型文献平台的出现,对人文研究产生了深远的影响:

●      前所未有的大规模数据访问: 它们极大地便利了全球研究者、教育者、学生乃至普通公众对海量一手历史文献和文化遗产资源的访问,打破了地域和机构的壁垒。

●      催生新的研究可能性: 通过聚合来自不同馆藏、不同媒介类型的资源,这些平台为进行大规模的跨馆藏比较研究、主题追踪、模式发现等“远读”(distant reading)式研究提供了可能。学者可以利用这些平台的数据进行文本挖掘、图像分析、网络分析等多种计算方法的研究。

●      丰富的教学应用资源: 平台上海量的原始材料为历史、文学、艺术史等学科的教学活动提供了生动鲜活的素材和案例。

尽管成就斐然,这些大型平台在发展过程中也面临着诸多挑战:

●      元数据的异构性与质量问题: 来自不同机构、遵循不同标准的元数据在格式、著录详略、语义理解上存在巨大差异,如何有效地整合、清洗、丰富和标准化这些元数据,以确保检索的准确性和数据的可比性,是一个持续的难题。

●      版权与开放获取的平衡: 许多数字化资源(尤其是20世纪以后的)仍受版权保护,如何在尊重知识产权的前提下最大限度地实现开放获取,是平台运营者需要审慎处理的法律和伦理问题。

●      数字鸿沟与可持续发展: 平台的建设和维护需要巨大的资金投入和技术支持,如何确保其长期可持续发展,并弥合不同地区、不同机构在数字化能力上的差距(数字鸿沟),是需要政策层面关注的问题。

●      确保数据质量以支持有效再利用: 正如Europeana在其战略中所强调的,提高数据质量是确保数字文化遗产得到更广泛再利用的关键。这不仅包括元数据的准确性和完整性,也包括数字化图像或文本本身的质量。

从深层来看,DPLA、Europeana和美国记忆等大型数字文献平台的建设,标志着文化遗产管理从以机构为中心的孤立馆藏模式,向以用户为中心、以网络化聚合为特征的知识共享模式的根本性转变。它们不仅是海量数字资源的存储库,更是新型学术研究的基础设施。这些平台通过提供API和批量数据下载等方式,主动邀请开发者和研究者利用其聚合数据进行二次创新和深度分析,从而将自身定位为数字人文学术生态系统中的积极参与者,而非仅仅是内容的被动提供者。而复杂元数据模型(如EDM)的研发与应用,则为实现这些平台上海量异构数据之间的语义互操作和有意义关联提供了核心技术支撑,使得构建一个真正意义上的“数字文化遗产对象网络”成为可能。



留下评论