6. 人工智能时代的技术演进与数字人文新范式
人工智能(AI)的迅猛发展,正以前所未有的深度和广度渗透到数字人文的各个层面,它不仅在革新传统的数字人文技术方法,也在催生全新的研究范式和应用场景。AI在数字人文中的角色日益多元化,从强大的分析工具、辅助内容生成器,到促进跨学科合作的催化剂,甚至其本身也成为了人文研究的重要对象。
6.1. AI对传统数字人文技术的革新
AI技术,特别是机器学习(ML)、自然语言处理(NLP)、计算机视觉(CV)和知识图谱(Knowledge Graphs, KG)等分支,正在对数字人文领域既有的核心技术和工作流程进行颠覆性的重塑。
● 索引编制与文献检索的智能化: 早期如布撒神父《托马斯全集索引》依赖穿孔卡片和半自动化词形还原,现代数字图书馆虽已实现全文检索,但AI的引入使其向语义检索和智能发现迈进。NLP技术能够更准确地理解用户查询意图,超越关键词匹配,实现基于概念和上下文的检索。AI还可以自动生成更精细的文献索引和摘要,提升信息获取效率。例如,在艺术品数字索引系统中,AI通过机器学习和深度学习分析艺术品的多维特征(色彩、纹理、构图等),自动建立索引标签,极大提高了数据处理的效率和准确性,减少了人工操作的依赖和主观性偏差。
● 文本分析与文体学的深化: 传统的文本分析和文体学研究,如《红楼梦》或莎士比亚作品的作者辨伪,早期依赖词频、词长等统计特征。AI,特别是基于深度学习的NLP模型(如Transformer架构的BERT、GPT等),能够捕捉更深层次的语义和句法模式,以及更微妙的文体特征。在作者归属、情感分析、主题建模、抄袭检测等任务上,AI模型展现出超越传统统计方法的潜力。例如,通过分析Burrows' Delta等文体度量指标,并结合聚类技术,可以区分人类与AI生成的文本,尽管AI在模仿人类创造力方面日益成熟,但其机器生成的痕迹仍可辨识。
● 文本编码与TEI生成的自动化辅助: TEI等文本编码标准虽然为人文文本的结构化和语义化提供了强大框架,但手动编码过程耗时费力。AI和NLP技术正被探索用于辅助甚至部分自动化TEI标记过程。例如,利用NLP工具进行命名实体识别(NER)、句法分析、篇章结构分析,可以为TEI编码提供初步的标记建议,从而提高编码效率。有研究专门针对历史议会文献开发了XML-TEI模型,并探讨了自动编码大规模语料库的方法。尽管AI在理解复杂人文语义和微妙文本特征方面仍有局限,但其作为编码助手的前景可期。
● 概念提取与观念史研究的拓展: 金观涛、刘青峰的观念史研究开创了基于数据库和关键词统计的方法。AI技术,如主题模型(如LDA、BERTopic)、词嵌入(word embeddings)和知识图谱,能够从大规模文本数据中更有效地自动发现潜在的概念、主题及其相互关系和历时演变。例如,BERTopic利用上下文嵌入,在处理大规模文本语料库时,其主题建模效果优于传统的LDA模型。AI驱动的概念提取不仅能处理更大规模的数据,还能揭示更复杂的语义关联,为观念史研究提供更精细的工具。稀疏自动编码器(SAEs)等技术也被用于从大型视觉模型中提取有意义的“概念”。
● 人物传记数据库(如CBDB)构建与分析的增强: CBDB的构建依赖于从海量历史文献中提取人物相关的“事实元” 。AI在这一过程中扮演关键角色,尤其是在命名实体识别(NER)、关系抽取和实体消歧方面。CBDB项目已明确使用BERT和Bi-LSTM等神经网络模型进行数据挖掘。AI能够从非结构化文本中自动识别提及人物、地点、时间、官职、社会关系等的片段,并尝试将其链接到数据库中的既有实体或创建新实体。这极大地提高了数据采集的效率和覆盖面,尽管数据验证和质量控制仍需人工深度参与。
● 数字图书馆与文献平台的语义赋能: DPLA、Europeana等大型文献平台的核心价值在于其海量的数字化资源和元数据。AI技术正被用于提升这些平台的智能服务水平。例如,Europeana利用AI(计算机视觉、NLP、ML)对其数百万文化遗产对象进行自动标注、内容分析和语义链接,从而改善用户发现体验,提供个性化推荐,并支持跨语言检索。AI驱动的元数据自动生成和丰富,有助于解决元数据稀疏和异构的问题,提升数字资源的可发现性和可利用性。

留下评论