二、数字人文的滥觞与早期探索 (1940s-1970s)
数字人文的源头可以追溯到20世纪中叶,计算机技术开始被零星应用于处理人文科学的复杂数据。这一时期的探索虽然在技术上相对初级,但其思想和方法论的突破却为后来的发展奠定了基石。
2.1. 1940s:索引技术的突破——布撒神父与《托马斯全集索引》
数字人文的历史常从意大利耶稣会神父罗伯托·布萨(Roberto Busa)的宏伟项目——《托马斯全集索引》(Index Thomisticus)讲起。布萨神父最初为了研究托马斯·阿奎那著作中“临在”(presence)的形而上学意义,手工制作了多达10000张索引卡片,深刻体会到精确理解特定词语(尤其是介词)用法的极端重要性。这一经历促使他萌生了为阿奎那全部著作(涉及约1063万个拉丁词汇)及相关文献建立一个完整词汇索引(concordance)的宏大设想。
为实现这一目标,布萨神父从1949年开始与国际商业机器公司(IBM)合作,利用当时最先进的穿孔卡片会计机进行文本处理。由于早期的穿孔卡片仅能容纳80个字符,阿奎那的诗歌因其分行结构和长度适中,被选为验证该技术可行性的初步材料。布萨神父在其著作《Varia Specimina》的引言中,系统阐述了编制索引的五个步骤:首先,将文本转录并分解为短语,记录于独立的卡片上;其次,根据每个短语中的词数复制相应数量的卡片;再次,在每张复制卡片上标示出对应的词目(lemma,即词典词条);然后,纯粹依据拼写对所有卡片进行筛选和字母排序;最后,在对字母排序结果进行智能化编辑后,完成出版的排版工作。这个过程的核心与难点在于实现“词形还原”(lemmatization),即把文本中出现的各种词语屈折变化形式(如动词的不同时态、名词的不同格)归并到其标准词典形式之下,而非简单地对词语的表面字形进行匹配。这一要求极大地增加了项目的复杂性与学术价值,最终通过计算机程序与人工干预相结合的半自动化方式得以完成,由人工处理程序难以判别的词形。
《托马斯全集索引》的编纂被广泛认为是数字人文(早期称“人文计算”)的开山之作,甚至被《经济学人》杂志誉为“数字人文的创世故事” 。该项目首次系统性地开发了处理非结构化自然语言文本的方法。整个项目历时三十余年,最终成果为一套包含56卷、约7万页的皇皇巨著。布萨神父曾强调,借助机器的力量,文献学家可以在数日之内获得初步的索引卡片档案和校订完毕的印刷 proofs,其准确性是纯粹人工合作所无法企及的。他本人对学术标准要求极高,绝不为了追求速度而牺牲排版的美观与内容的严谨性。尽管布萨神父初期对项目进度抱有乐观估计,认为穿孔卡片技术能在四年内完成这项原本需要“半个世纪”的工作,但实际耗时远超预期。词形还原的半自动化过程依然需要投入巨大的人力(据估计达100万小时),这也揭示了早期计算项目对人工的高度依赖。一些评论者甚至认为该项目“过度”(excessive)和“迂腐”(pedantic)。
然而,《托马斯全集索引》的深远意义在于,它不仅成功地将一种复杂的人文主义探究(对中世纪拉丁文神学文本的精细词汇分析)转化为可计算的问题,更重要的是,它体现了对文本“意义”而非仅仅是“形式”的追求。布萨神父坚持词形还原,目标是索引由词典词条所代表的“概念”,而非简单的词形字符串,这为人文研究驱动数字技术应用而非受其局限树立了典范。同时,该项目对IBM公司技术力量的依赖,以及其背后庞大的人力投入,也预示了大型数字人文项目未来发展的一些关键特征:对外部资金和技术资源的需求,以及“自动化”光环下常常被遮蔽的大量人工劳动。
2.2. 1960s-:文本分析的兴起——《红楼梦》与莎士比亚作品的计算研究
继布萨神父的开创性工作之后,20世纪60年代起,文本分析(Text Analysis)作为一种新兴的研究方法开始受到关注,特别是在文学研究领域。学者们尝试运用计算手段,通过分析词频、词长、特定功能词的分布等语言特征,来探讨作者身份认定、作品风格辨识等传统人文学术问题,旨在为文学争端引入定量的、可检验的证据。
在中国古典文学研究中,《红楼梦》的作者辨伪问题便是一个典型案例。长期以来,关于《红楼梦》后四十回是否为曹雪芹原著,学术界众说纷纭。胡适等学者认为是高鹗所续,但这一观点并未完全平息争议。早期的辨伪研究多依赖人工统计和感性判断。随着计算技术的发展,学者们开始采用文本挖掘的方法。例如,有研究通过设计特定的“挖掘函数”,旨在找出前八十回与后四十回这两个语料库之间在词汇使用上存在显著差异的词语。通过对一元词(unigrams,即单个词语)和二元词(bigrams,即连续两个词语构成的词组)的文档频率(即词语在多少章节中出现过)进行统计分析,研究者发现了一些有趣的现象。一个常被引用的例子是,“嬤嬤”(māmā,对老年女性仆役的称呼)一词在前八十回的34个章节中均有出现,但在后四十回中则完全不见踪影 8。这类基于词汇统计的证据,为后四十回非曹雪芹所作的观点提供了新的支持,甚至有研究进一步指出,作为早期版本中缺失的第六十四回和第六十七回,也可能出自他人之手。
几乎在同一时期,西方文学研究领域也出现了类似的尝试,其中莎士比亚作品的作者归属问题(Shakespeare authorship question)成为了计算文体学(computational stylometry)应用的焦点。一些学者质疑莎士比亚本人的教育背景、贵族生活经验等与其作品所展现的学识和视野不符,从而推测其作品可能另有作者。早期的计算文体学研究,如托马斯·门登霍尔(Thomas Mendenhall)在19世纪末期通过手动统计词长分布来比较莎士比亚与培根等人的写作风格。进入计算机时代后,研究方法日趋多样和复杂,包括基于功能词(如冠词、介词、连词)使用频率的分析、神经网络模型的应用、N-gram分析(对连续N个词或字符序列的统计)、潜在语义分析(Latent Semantic Analysis)等多种计算技术被引入莎士比亚作品的真伪鉴定和风格研究中。例如,RPAS方法(一种多方面文本分析方法)会考察文本的词汇丰富度(Richness)、人称代词(Personal Pronouns)的使用、指称活动力(Referential Activity Power,关注语言的感觉方面)以及感官形容词(Sensory Adjectives)的分布等特征。
这些早期计算文本分析的应用,无疑为传统文学研究注入了新的活力,试图将主观的文学鉴赏与客观的量化分析相结合,代表了文学研究领域一次重要的认识论转向。通过对大规模文本进行机器辅助的模式识别,一些以往难以察觉的语言特征和风格差异得以显现,从而为既有的学术观点提供佐证,或引发新的讨论。
然而,早期计算文体学也暴露出其固有的局限性。首先,在特征选择上,当时的分析往往过度依赖词性标注(Part-of-Speech tagging)、功能词频率、平均词长和句长等相对表层的、易于量化的文本统计特征。虽然这些特征易于获取且在一定程度上能反映作者的语言习惯,但它们可能难以捕捉到更为精微的、由特定词汇选择所承载的风格神韵。其次,这些方法常常面临“建构效度”(construct validity)的拷问,即所选取的计算特征(代理特征)是否真正反映了人类读者对文本质量或作者风格的感知与判断。例如,一些自动化评估系统可能将某种语法结构(如被动语态的频繁使用)视为负面指标,但人类评分者在特定语境下反而可能认为这是优秀写作的体现。此外,一些早期的文体反馈系统倾向于提供一种简化的“好文体/坏文体”二分法判断,这种刻板的评价标准可能会限制学习者发展富有个性的写作风格。在莎士比亚作者归属研究中,尽管技术不断进步,但正如鲁德曼(Rudman, 2012)所指出的,在历经超过600项相关研究之后,学术界对于何为最准确、最可靠的计算文体学方法仍未达成共识。特征选择的任意性、文本长度对统计结果的敏感性、历史语言演变对跨时代文本比较的干扰等问题,都持续困扰着研究者。
这些局限性深刻地揭示了数字人文领域一个长期存在的挑战:如何将复杂而微妙的人文概念(如“风格”、“作者身份”)有效地计算化、操作化,而又不致过度简化或歪曲其内涵。这提醒我们,数字工具的应用必须伴随着持续的方法论反思,审视其是否恰当地捕捉了所声称要衡量的人文现象。这一教训对于今天我们思考和应用更为复杂的人工智能技术,依然具有重要的警示意义。事实上,计算性作者归属研究中的诸多争议和缺乏定论的状况也表明,这类方法往往更多地扮演着激发新问题、提供新视角的角色,而非一锤定音地解决文学史疑案。它们丰富了学术讨论的维度,展现了计算方法与传统学术探究之间一种相辅相成的关系,而非简单的替代。

留下评论