旧文本的新透镜——跨学科应用案例研究(AI4SS系列之十二)

【本系列博文读者对象:对AI感兴趣的哲学社会人文学科的研究人员、相关学科研究生、文科科研管理人员】

第十二章:模拟参议院:LLM如何建模政治行为与政策后果

回答问题:如何应用AI建模政治行为、政策辩论及其后果? 

 

政治科学的核心任务是理解权力如何运作、政策如何形成以及公众舆论如何塑造政治格局。长期以来,政治科学家依赖于案例研究、调查数据和统计模型来探索这些复杂问题。如今,大语言模型正作为一个强大的“多功能工具箱”进入该领域,从自动化政策文本分析,到模拟议会立法行为,再到精准测试政治说服策略,LLMs正在为我们理解和预测政治动态提供全新的视角和方法。

首先,LLMs极大地提升了对海量政治文本的分析效率和深度。政治活动产生了大量的文本数据,包括法律草案、议会辩论记录、政策白皮书、新闻报道和社交媒体评论。传统的内容分析方法耗时耗力且难以规模化。而LLMs能够快速、准确地完成这些任务。例如,一项研究成功利用GPT-4对美国主要医学组织的数百份政策声明进行分析,自动判断其政治立场(偏向民主党或共和党),其准确性与人类专家相当,但效率却提高了几个数量级 65。此外,对于像识别政治宣言中的“民粹主义”言论这类需要理解复杂概念的任务,研究者可以利用LLM生成大量带有标签的“合成训练数据”,来训练一个更小、更高效的传统文本分类器,从而以低成本实现大规模文本的自动化标注。

其次,LLMs正在被用于构建日益逼真的政治行为模拟模型。通过将LLM作为智能体(agent)的“大脑”,研究者可以创建出能够模仿真实政治行动者(如议员、说客或选民)行为的“数字孪生”。已有研究开始尝试构建“模拟美国参议院”的模型,让代表不同党派和选区的LLM智能体进行互动,以模拟法案的提出、辩论、协商和投票过程,从而研究两党合作或政治僵局的形成机制。在选民行为层面,LLMs也被证明能够相当准确地模拟一个具有代表性的美国样本对不同政治实验情境的反应,其预测结果与真实的真人调查实验结果高度相关(相关系数高达0.85)。

最引人注目的应用之一,是利用LLMs测试政治说服(political persuasion)的效果。一场大规模的、发表在《美国国家科学院院刊》(PNAS)上的研究,构建了一个能够实时将参与者的个人信息(如年龄、性别、党派、居住地等)输入GPT-4,并为其“量身定制”政治说服信息的系统。这项研究旨在回答一个关键问题:令人担忧的AI驱动的“微观定位”(microtargeting)政治宣传,其效果究竟有多大?

实验结果出人意料,并具有深刻的启示。一方面,GPT-4生成的说服信息,无论是通用的还是定制的,都表现出强大的说服力,在某些议题上能将民众的支持率提升高达12个百分点。但另一方面,与普遍的恐慌相反,那些根据个人信息“量身定制”的微观定位信息,其平均说服效果与精心撰写的“通用最佳信息”相比,并无统计上的显著差异。

这一发现揭示了当前LLMs能力的一个重要边界。它暗示,LLMs或许非常擅长捕捉和再现一个“人口统计学类别”的平均或刻板印象式的观点(例如,“一个来自得克萨斯州的45岁共和党女性”可能会关心什么),但它们尚无法触及构成有效说服关键的、真正属于“个体”层面的独特价值观、个人经历和心理触发点。换言之,LLM是在对一个“刻板印象”进行说服,而非一个活生生的“个人”。这个“失败”本身,就是一个重大的科学发现。它告诉我们,人类的政治身份认同远比语言数据中呈现的宏观模式要复杂和难以预测。LLMs在微观定位上的局限性,恰恰从反面证明了政治心理的深度和个体能动性的重要性。



留下评论