数字田野调查——作为人类社会模拟器的LLM(AI4SS系列之五)

【本系列博文读者对象:对AI感兴趣的哲学社会人文学科的研究人员、相关学科研究生、文科科研管理人员】

第五章:“硅基主体”:大语言模型能否替代真人参与问卷调查?

回答问题:AI能否作为“硅基被试”替代真人参与社会调查,其方法论边界何在? 

对于许多社会科学家而言,招募被试、分发问卷、收集数据是研究工作中最为耗时且成本高昂的环节。因此,当大语言模型展现出模拟人类回答的能力时,一个诱人的前景浮现了:我们是否可以用“硅基主体”(silicon subjects)来替代真人,从而以极低的成本和极高的速度进行大规模的社会调查?这一想法正迅速从科幻走向现实,但也伴随着深刻的方法论挑战。

使用LLMs模拟问卷调查的潜力是巨大的。首先,它们有望解决长期困扰社会科学的样本代表性问题。传统研究常常依赖于方便样本(如大学生或在线众包平台用户),这使得研究结论的普适性(generalizability)备受质疑。而LLMs在训练过程中接触了来自互联网的海量、多样化的文本数据,理论上能够代表比任何单一真人样本库都更广泛的人类经验和视角 。其次,对于初步研究或假设探索阶段,使用LLMs进行模拟可以作为一种高效、经济的“飞行模拟器”,帮助研究者快速测试问卷设计的有效性,或生成初步假设,待后续通过真人实验进行验证。

目前,学界探索这一方向的主流方法是“角色扮演法”(persona-driven method)。研究者通过精心设计的提示语(prompt),要求LLM扮演一个具有特定人口统计学特征(如年龄、性别、政治立场、教育背景等)的角色来回答问卷。其核心理念在于,通过这种“情境设定”,可以引导模型生成符合特定人群思维和语言习惯的回答。已有研究表明,在某些领域(如消费者行为预测),LLMs生成的回答与真人数据在宏观模式上表现出了一定的一致性。

然而,“硅基被试”的有效性也面临着严峻的挑战。研究发现,尽管LLMs能够捕捉到总体的回答模式,但其生成的数据通常比真人数据表现出更低的“变异性”(variability),即回答更为集中,缺乏真人回答中常见的极端值和多样性 27。此外,模型的表现对提示语的设计极为敏感,细微的措辞差异就可能导致结果的巨大变化,并且它们在理解问卷题目中微妙的、深层的含义时仍有困难。

更根本的困境在于一个深刻的方法论悖论。在传统的人类实验中,“双盲”设计是保证内部有效性的黄金标准,即被试不应知晓自己被分配到了哪个实验组。然而,将这一原则直接套用在LLM模拟上可能会产生误导。与独立存在于实验之外的真人不同,LLM扮演的“被试”是由提示语“即时创造”的。当研究者为了实现“盲法”而只向LLM提供单一实验条件的信息时,实验处理(treatment)本身可能会系统性地影响到提示语中未明确说明的、本应保持不变的潜在变量,从而引入了新的混淆因素,破坏了因果推断的根基。

综上所述,将LLM生成的问卷回答视为对人类心理状态的直接测量,可能犯下了一个根本性的“范畴谬误”(category error)。LLM的回答并非源于真实的信念、态度或情感,而是一个基于其训练数据中语言模式的概率性文本生成。因此,当前阶段,利用LLM进行问卷模拟的有效场景,可能更多地局限于探索特定议题在公共话语中的普遍模式,而非精确测量个体或群体的心理状态。它是一个强大的话语分析工具,但作为一个心理测量工具,其有效性仍需我们保持高度的审慎和批判。



留下评论