【本系列博文读者对象:对AI感兴趣的哲学社会人文学科的研究人员、相关学科研究生、文科科研管理人员】
第十三章:“科学家”与“人文学者”的困境:直面AI研究的核心伦理张力
回答问题:AI研究中“描述现实”与“塑造理想”的核心伦理张力是什么?
在利用大语言模型进行社会科学研究时,研究者正面临一个深刻的内在冲突,一个可以被称之为“科学家与人文学者”的困境(The Scientist vs. The Humanist Dilemma)。这个困境源于两种对立的研究目标:一方是作为“科学家”的角色,希望研究一个“真实”反映我们社会面貌的模型,哪怕这个模型充满了偏见和缺陷;另一方是作为“人文学者”或伦理主义者的角色,希望修正这些缺陷,创造一个更公平、更理想的模型。这一根本性的张力,构成了AI时代社会科学研究的核心伦理难题。
“科学家”的目标是描述和解释“世界是什么”(the world that is)。从这个角度看,如果一个LLM在训练后表现出性别歧视或种族偏见,这恰恰是其科学价值所在。因为模型所吸收的训练数据——即我们人类社会在互联网上留下的庞大文本足迹——本身就充满了这些偏见。因此,一个“有偏见的”LLM,可以被视为一个研究社会偏见如何形成、传播和固化的绝佳工具。科学家希望研究这些“纯粹的”、未经过度伦理“净化”的LLM,以模拟真实的人类行为,并追溯其文化演化的轨迹。
然而,“人文学者”以及AI工程师的伦理责任,则要求他们致力于构建一个“世界应该是什么”(the world that ‘should be’)的模型。出于对社会公正的追求和对潜在危害的担忧,AI公司和研究社区投入巨大努力,通过“强化学习与人类反馈”(RLHF)等技术,来“对齐”LLM的价值观,减轻其偏见,使其输出更符合人类社会的道德规范 1。这些努力旨在保护用户免受有害信息的侵害,并塑造一个更负责任的AI。
这两种目标之间的冲突是显而易见的。对LLM进行伦理“修正”和偏见“缓解”的努力,“可能会损害AI辅助的社会科学研究的有效性”。一个经过“去偏”处理的模型,在某种程度上,已经不再是现实社会的真实写照。它所模拟的,可能是一个我们期望的、更美好的社会,但这却使其作为研究“真实社会”的科学工具的价值打了折扣。例如,如果我们想研究网络仇恨言论的传播机制,一个被严格训练到从不生成仇恨言论的模型,对这项研究的帮助将非常有限。
这个困境并非全新事物,它是哲学中经典的“是与应该”(is-ought problem)问题,以及社会科学领域关于“价值中立”(value-neutrality)的长期辩论,在数字时代的一次集中爆发。马克斯·韦伯(Max Weber)曾倡导一种“价值无涉”的社会学,认为研究者的任务是客观描述社会现实,而非施加个人价值判断。而批判理论家则认为,纯粹的价值中立是不可能的,社会科学应具有解放性,致力于推动社会走向更公正的形态。
一个在原始互联网数据上训练的LLM,更像是一个韦伯式的“实然”(is)模型;而一个经过RLHF精细调整的LLM,则更像是一个带有批判理论色彩的“应然”(ought)模型。因此,“科学家与人文学者的困境”迫使每一位使用LLM的研究者做出明确的选择:你的研究目标是描述现实,还是改造现实?你是需要一个描述性准确但可能传播有害观念的模型,还是一个伦理上安全但描述性失真的模型?这个问题没有简单的答案,但它要求研究者必须对其研究的认识论立场和伦理承诺,进行前所未有的清晰反思。

留下评论