旧文本的新透镜——跨学科应用案例研究(AI4SS系列之十一)

【本系列博文读者对象:对AI感兴趣的哲学社会人文学科的研究人员、相关学科研究生、文科科研管理人员】

第十一章:以超光速“细读”:GPT-4时代的计算文学批评

回答问题:AI如何变革计算文学批评并实现超大规模的文本分析? 

 

文学研究的核心,长期以来建立在对经典文本(canon)的“细读”(close reading)之上。然而,在人类历史上存在着数量庞大的“未读之作”(the great unread),这些作品因各种原因未能进入学术视野。计算文学研究(Computational Literary Studies, CLS)的兴起,旨在通过计算方法,对大规模文学语料库进行“远读”(distant reading),从而揭示出超越单一文本的宏观文学模式和历史趋势。如今,以GPT-4为代表的大语言模型,正为这一领域注入前所未有的动力,让“远读”得以“超光速”进行,并触及了以往计算方法难以企及的深度。

LLMs首先极大地简化了CLS的技术门槛,并拓展了其分析能力。传统的CLS方法,如词频统计或主题建模,虽然有效,但在处理语言的复杂性,如风格、情感和比喻等方面,能力有限。而LLMs,作为在海量文本上预训练的复杂模型,天然具备了对这些微妙语言现象的强大处理能力,这为文学分析提供了更丰富、更细腻的工具集。

一个典型的例子是LLMs在“比喻理解”上的突破。比喻,尤其是新颖的文学比喻,被认为是检验创造性语言能力的重要标尺。传统观点认为,LLMs只能理解和复述其在训练数据中见过的比喻。然而,近期的研究挑战了这一看法。一项研究测试了GPT-4解读从未公开发表过的、从塞尔维亚语诗歌翻译而来的新颖文学比喻的能力。结果显示,GPT-4能够生成相当合理且富有洞察力的阐释,其表现已接近甚至在某些方面超越了人类。这表明,顶尖的LLMs已经具备了一定的抽象推理和概念映射能力,能够处理复杂的创造性语言。

除了比喻,LLMs正在被广泛应用于文学文本的多个分析层面:

  • 风格分析(Stylometry):通过分析词汇选择、句法结构等特征,LLMs可以被用来进行作者归属鉴定,或研究特定作家、流派、时代的写作风格演变。
  • 主题与情感分析:LLMs能够跨越数千部小说,识别出特定主题(如“工业化对乡村生活的影响”)的演变轨迹,或追踪某种情感(如“怀旧”)在不同文学时期中的表达方式。
  • 叙事结构分析:更高级的应用甚至开始探索利用LLMs来分析小说的叙事结构、人物关系网络和情节发展模式。

值得注意的是,LLMs不仅是文学分析的工具,其自身生成的文本也成为了新的研究对象。例如,有研究对比了AI生成的科学文本与人类科学家的写作,发现AI文本在语言复杂度和“困惑度”(perplexity)上呈现出可被量化的差异,这为文本溯源提供了线索。

当然,将LLMs应用于文学批评也面临着挑战。在没有经过特定任务微调的情况下(即“零样本”zero-shot场景),LLMs在处理一些复杂的文本分类任务时,其表现往往不如那些在标注数据上训练过的专用模型 63。它们在理解包含密集事件、需要长距离推理的复杂叙事时,也可能出现困难。

尽管如此,LLMs为文学研究带来的最大启示在于,它可能使我们能够“操作化”并“检验”那些以往纯属阐释范畴的复杂文学理论。想象一下,一位文学理论家提出了一个关于“现代小说中讽刺手法的演变”的理论。在过去,他只能通过精读几部代表性作品来佐证自己的观点。而现在,他可以与计算语言学家合作,设计一套复杂的提示语或微调一个模型,来识别文本中的不同讽刺类型。然后,他们可以将这个模型应用于一个包含数万部小说的语料库。最终得到的,将是一幅关于“讽刺”这一文学手法在数百年间演变的数据地图。这并不能取代理论家的阐释,但它为阐释提供了前所未有的大规模经验证据,从而推动文学研究走向一种理论思辨与经验验证相结合的新阶段。

 



留下评论