数字人文技术史考察(九)

5. 交互、视觉与沉浸:数字人文的新维度 (2010s-2020s)

进入21世纪的第二个十年,数字人文在交互性、可视化和沉浸式体验方面取得了显著进展。协同标注与分析工具的成熟、图像平台互操作性的增强以及数字孪生与元宇宙等前沿概念在文化遗产领域的初步探索,共同塑造了数字人文研究的新维度。

5.1. 2010s-:协同标注与分析工具——Markus、Docusky等平台的应用

随着数字文本资源的爆炸式增长,对文本进行深度加工、协同分析的需求日益迫切。一批集成了文本标注、数据管理、分析与可视化功能的平台应运而生,它们显著降低了人文研究者使用计算方法的技术门槛,并促进了研究流程的整合与团队协作。此处主要基于Markus和Docusky进行阐述,并结合数字人文工具的一般性知识对类似平台的功能进行推断性描述。

●      Markus平台:

○      功能与定位: Markus是一个多语言的数字文本标注与分析平台,最初主要为处理20世纪以前的中文文献而设计,现已发展到能够支持多种语言文本的分析。其核心功能在于帮助历史学者和其他人文研究者从全数字化文本中构建结构化数据集。Markus特别擅长对现代与古典中文以及中古韩文文本中的命名实体(人名、地名、官名、时间等)进行自动化标注、规范化引用和可视化呈现。

○      核心特性:

■      语义与结构化标记: 支持对文本进行深入的语义标记(如标记人物、地点、时间、事件、概念等)和结构化标记(如划分章节、段落、信件等)。它能够利用多个权威的学术数据集,如中华历代人物传记数据库(CBDB)、中国历史地理信息系统(CHGIS)的地点权威库(TGAZ)、台湾大学的法鼓地名权威库等,对文本中的命名实体进行自动识别、匹配和链接,并赋予唯一的ID,从而实现数据的规范化和互联互通。

■      丰富的标记工具集: 除了基于权威库的自动标记外,Markus还提供了关键词标记模块(支持用户自定义词表、生成KWIC索引、使用正则表达式)、批量标记功能(可同时处理大量文件)、文本重用检测工具COMPARATIVUS(用于发现文本间的引用、抄袭或版本差异,并将结果反馈到Markus中进行标记)、以及关系标记功能(允许用户在已标记的实体之间建立和定义语义关系,如师承、婚姻、敌对等,并添加关系类型和元数据,为网络分析提供数据基础)。

■      用户定制与编辑干预: Markus允许用户进行广泛的编辑干预,包括修正原文错误、手动添加或修改标记、批量删除或修订标记、设计自定义标记集、添加注释,以及根据个人需求配置在线词典和数据集的链接。这些高级功能通常需要用户注册免费个人账户。

■      实验性的机器学习模块: 该模块允许用户基于已正确标注的批量文件训练模型,从而对新的同类文本进行预测性标记,有助于发现特定文类(genre)的写作规律。

○      数据分析与可视化接口: Markus本身并非终极分析工具,但它通过标准化的数据导出格式(如HTML, XML-TEI, CSV, TSV, Excel等)和与其他平台的紧密集成,为后续的数据分析和可视化提供了极大便利。用户可以通过VISUS界面,将Markus中处理的数据无缝对接到Palladio(斯坦福大学开发的可视化工具)和PLATIN(一个用于探索和可视化历史数据的平台)中,自动导入来自CBDB的人物传记信息,并结合用户自己的数据,在地图、网络图、表格、时间轴或饼图等多种视图中进行探索性分析。此外,Markus还支持将数据导出到更专业的空间分析、网络分析或统计分析软件包中进行深度研究。

○      应用案例: 例如,有学者利用Markus对朝鲜王朝使臣的燕行录(出使中国的记录)进行研究,通过细致标注文献中的人名、地名、官名以及与贸易相关的动词(如“购买”、“中介”),并定义它们之间的关系,然后将这些结构化数据导入Gephi等网络分析软件进行可视化,从而清晰地揭示了随行译官在清代与朝鲜之间的官方及非官方贸易网络中所扮演的核心节点角色。

●      Docusky平台:

○      定位与目标: Docusky是一个旨在为广大人文学者打造的“个人数字人文平台”(personal digital humanities platform)。其核心目标是让学者在无需直接IT技术人员协助的情况下,能够独立完成从数据获取、整理、分析到成果展示的整个数字研究流程。

○      核心理念与技术: Docusky倡导“内容与工具分离”的设计哲学,并通过其自定义的XML数据格式——DocuXML——来确保平台内部以及与外部工具之间的数据互操作性。DocuXML为元数据属性和文本内标注(tags)提供了一套预定义规范,同时也允许用户根据研究需要自定义标签和元数据字段。

○      主要功能模块:

■      数据获取与转换: Docusky提供了从特定网络资源(如Ctext.org, Kanripo, CBETA, THDL等)下载文本资料的接口,并能将多种常见格式(如纯文本txt, 表格csv/xls, Markus标注文件)一键转换为DocuXML格式。

■      数据库构建: 用户可以将转换后的DocuXML文件上传至平台的“db-builder”工具,快速构建一个支持全文检索的个人化数据库。数据库可以包含多个文档,并可根据文件夹结构等对文档进行分组(形成不同的语料库),这些分组信息本身也可用作后续检索结果的后分类(post-classification)属性。

■      文本标注与元数据管理: Docusky鼓励用户使用Markus作为主要的文本标注工具(尤其对于中文等缺乏自然分词的语言),并能方便地将Markus的标注成果整合到Docusky数据库中。用户也可以在Docusky中为文档添加和管理自定义的元数据。

■      文本分析与语境发现: Docusky内置了一系列文本分析工具,包括词汇发现(word clipping)、N-gram分析、词频统计(如集成台湾大学谢舒凯教授开发的TermStat工具)、文本风格分析、相关文献发现等。它还强调“语境发现”(context discovery),即不仅关注检索结果本身,更注重揭示文献之间、文献内部以及文献与元数据之间的多种关联,如基于元数据属性(如“年份”)对检索结果进行排序或筛选(“元数据语境”),或展示特定标签(如人名、地名)在文献中的分布和共现情况(“标签语境”)。

■      地理空间可视化(DocuGIS): Docusky集成了DocuGIS工具,可以将包含地理坐标信息的文本数据(如经过Markus标注的地点)在历史地图或现代地图上进行可视化呈现,并支持在GIS环境中进行交互式查询。一个重要特点是,地图上的任何数据点都与原始文本来源保持链接,方便用户回溯查证。

■      与其他工具的集成: Docusky作为一个开放平台,积极吸纳和整合外部优秀的数字人文工具和资源,如前述的Markus、CBDB、CHGIS,以及斯坦福大学开发的Palladio可视化工具等,通过DocuXML和DocuWidgets(一套简化外部工具接入Docusky数据库的API封装)来实现互操作。

这些协同标注与分析平台的出现和发展,体现了数字人文工具设计理念的成熟。它们不再是单一功能的零散软件,而是力图构建一个整合的、赋能用户的研究环境,支持从原始数据处理到最终成果呈现的完整学术工作流。特别是像Markus这样专注于特定学术社群(如东亚研究)需求的工具,通过深度整合领域内的权威数据库(如CBDB, TGAZ)和针对性的分析功能,极大地提升了研究效率和深度。而Docusky所倡导的“内容与工具分离”以及通过DocuXML实现互操作的理念,对于构建一个模块化、可扩展、避免数据孤岛的数字人文学术生态系统至关重要。这种设计允许学者根据具体研究任务,灵活组合使用最适合的工具,而不是被锁定在某个封闭的专有系统之内。更重要的是,这些平台通过将精细的文本标注(一种定性的人文解读行为)与强大的后端计算分析能力(如Markus与Gephi的结合,或Docusky内置的文本统计与可视化工具)紧密连接起来,有效地打通了从传统“细读”式文本研读到新兴“远读”式数据挖掘之间的路径,使得人文洞见与计算发现能够更好地相互启发、相互印证。



留下评论