标准化与知识组织化:数字人文的基石 (1980s-1990s)
随着计算机在人文研究中的应用逐渐增多,数据的标准化和知识的有效组织成为推动数字人文进一步发展的关键。20世纪80至90年代,以文本编码倡议(TEI)的建立和大型历史数据库的构建为标志,数字人文开始奠定其坚实的学科基础。
3.1. 1980s-:文本编码的规范——TEI及其重要项目
文本编码倡议(Text Encoding Initiative, TEI)成立于1987年,几乎与最早的文本标记语言SGML(ISO8879-1986)同时起步,其核心使命是开发、维护并推广一套独立于特定硬件和软件的、用于人文及社会科学领域电子数据(尤其是文本数据)编码的方法与指南。TEI的诞生源于当时学术界面临的严峻挑战:电子文本的表述方式五花八门,各种系统互不兼容,且往往设计粗糙,这极大地阻碍了数据的可持续共享、学术工具的通用开发以及数字资源的长期保存。人们担忧专有格式会割裂学术社群,不利于知识的整合与传播。TEI的一个核心指导原则是“意义先于形式”(meaning before format),强调编码应优先捕捉文本的语义内容和结构功能,而非仅仅是其视觉呈现样式。
TEI指南的制定遵循了1987年在瓦萨学院(Vassar College)会议上确立的“波基普西原则”(Poughkeepsie Principles)。这些原则为指南的开发设定了框架,包括:定义一套推荐的文本编码语法;定义一种用于描述文本编码方案的元语言;指南应提供数据交换的标准格式,并为遵循此格式的文本编码提供指导原则;指南应能适应各种应用需求,并包含一套创建新文本编码的最小约定集等。TEI指南的演进是一个持续迭代的过程,从最初的P1提案(“Proposal 1”,1990年发布),到基于标准通用标记语言(SGML)的P3版本(1994年发布,被认为是第一个官方正式版本),再到适应互联网发展、迁移到可扩展标记语言(XML)的P4版本(2002年发布,实质上是P3的XML化,修正了错误但未做实质性内容改动),最终发展到经过全面修订和扩展的P5版本(2007年发布至今并持续更新)。这一系列版本的迭代,充分吸纳了全球学术社群的反馈意见和计算机技术的最新进展。
TEI自诞生以来,迅速成为数字人文领域事实上的国际标准,其应用范围极为广泛,深刻影响了电子文本的学术实践。它被大量用于制作文学作品的数字学术版和校勘版、构建大型语言学语料库、编纂学术参考工具书,以及管理各类电子文本和文化遗产馆藏的详细元数据。TEI的出现不仅极大地推动了电子文本学术(electronic textual scholarship)的发展,其采用的标记语言思想也间接催生了XML这一更为通用的网络标记语言。
众多重要的数字人文项目都采用了TEI标准,以下列举几个代表性案例:
● 法国大革命数字档案(French Revolution Digital Archive, FRDA): 该项目利用TEI对法国大革命时期的议会档案(Archives parlementaires)进行深度标记,重点标注了发言人、地点、日期以及原始索引中的术语等信息。这种结构化编码极大地增强了这批珍贵历史文献的可检索性和可用性,使研究者能够便捷地进行复杂查询。
● 达尔文通信项目(Darwin Correspondence Project): 该项目致力于整理、出版查尔斯·达尔文的全部信件。所有信件的电子抄本均采用TEI P5规范进行编辑和编码,从而使研究者能够细致研读达尔文的信件内容,深入了解其学术思想的形成过程、个人兴趣以及与当时科学界的广泛联系。
● 惠特曼档案(Walt Whitman Archive): 该项目旨在收集、整理和展示沃尔特·惠特曼的全部作品,包括诗歌手稿、笔记、信件和出版物。为了应对惠特曼手稿作为复杂物质对象和知识构建载体的特性(如大量的修改、版本差异等),项目团队专门开发了一套扩展TEI标准的文档类型定义(DTD),以支持对手稿进行精细的结构和内容描述,从而实现复杂的文本搜索和数字资源的长期保存。
● 牛顿项目(Newton Project): 这是目前世界上最大的文本编码项目之一,依据TEI指南,系统转录了艾萨克·牛顿数百万字的著作,涵盖其在神学、科学(包括光学和数学)、炼金术以及皇家铸币厂行政管理等多个领域的文稿。通过TEI编码,这些珍贵文献得以实现开放获取,并支持全文搜索和计算文本分析,极大地促进了牛顿研究的广度和深度。
● 塞万提斯项目(Cervantes Project / Don Quixote): 该项目计划利用TEI XML对塞万提斯的《堂吉诃德》西班牙文和英文版本进行编码。尤为值得注意的是,项目还设想创建一套项目特定的TEI元素,用以专门标记小说中的叙事结构,如不同的章节(episodes)、历险情节(adventures)、核心主题(themes)和反复出现的母题(motifs)。这种深度的叙事层面编码,旨在为塞万提斯研究学者提供更为丰富的文本检索和分析维度,并支持对《堂吉诃德》插图文献学的研究。
TEI的成功及其对数字学术和文化遗产保护的巨大贡献是毋庸置疑的,它已成为国际学术界公认的一项关键基础设施。然而,TEI的应用也伴随着一些固有的挑战和局限。例如,如何在确保编码的严格性(以利于计算机处理和数据互操作)与保持足够的灵活性(以适应千差万别的人文文本特性)之间取得平衡,一直是TEI社群持续探讨的问题。更深层次的问题在于,文本编码本身就是一种阐释行为(hermeneutic activity)。编码者选择标记什么、如何标记,都蕴含着其对文本的理解和学术判断。这意味着TEI编码的文本并非原始文本的纯粹客观复制,而是经过学者阐释的“第二文本”。因此,尽管TEI力求标准化,但语义层面的一致性(semantic conformance)往往难以完全通过自动化程序来验证,仍需依赖详细的项目文档和编码者的共识。这种标记的阐释学本质,使得TEI从一项纯粹的技术任务转变为一种明确的学术表达,使数字版本背后的理论预设和编辑选择变得更加透明可见。TEI在严格性与灵活性之间的张力,实际上反映了数字人文领域一个根本性的辩证关系:即标准化(为数据交换和计算分析所必需)与人文学术对象固有之含混性、多变性之间的持续协商。

留下评论