聊天机器人也学会“装人”了？大型语言模型竟通过图灵测试！

简介

大型语言模型（LLM）已通过图灵测试，GPT-4.5 在测试中被误认为是人类的超过73% 。
证据倾向于支持 LLM 具备类似人类的对话能力，但争议在于这是否反映真正的智能。
图灵测试可能更多衡量“人性化”而非深度理解，批评者认为其存在局限性。

什么是图灵测试？

图灵测试就像一场“谁是卧底”的游戏。它的创始人是计算机科学的“鼻祖”艾伦·图灵。他在 75 年前提出了一个“模仿游戏”：

一个人类测试员通过打字聊天，同时跟两个藏起来的家伙聊天。
其中一个是真人，另一个是AI 机器人。
俩人都得拼命装自己是人类，让测试员猜不出谁是 AI。
如果测试员老是猜错，分不清哪个是真人，那就说明这台AI 通过了图灵测试，说明它聪明得跟人类差不多了！

一直以来，图灵测试都被看作是衡量 AI 有多“像人”的重要标准。能通过它，简直是 AI 界的最高荣誉！

LLMs 首次成功“瞒天过海”

前不久，加州大学圣地亚哥分校（UCSD）的研究团队就做了这么一项实验。他们设计了一套严谨的“三方图灵测试”，让测试员同时和一个人、一个 AI 聊天 5 分钟，然后判断哪个是真人。他们测试了四种 AI：

GPT-4.5：当时最厉害的 AI 模型之一。
LLaMa-3.1-405B：一个参数超级多的强大模型。
GPT-4o：一个还不错的模型，用来做比较。
ELIZA：一个很老的聊天机器人，看看“老家伙”表现咋样。

为了让 AI 更像人，研究人员还给 GPT-4.5 和 LLaMa-3.1 设计了两种“人设”：

“没人设”模式：就告诉 AI 它的目标是装人类，给了一些基本的背景信息。
“有人设”模式：让 AI 扮演一个19 岁、有点内向、懂网络梗、爱说“潮语”、还不喜欢用句号的年轻人。这个“人设”可是研究人员事先测试过，发现效果最好的！为了更逼真，还引导 AI故意打错字，用点网络流行语，避免说话太完美。

结果简直让人大吃一惊：

开了“有人设”的GPT-4.5，竟然有73% 的时间被认为是真人！这比例不仅远远高于瞎猜的 50%，甚至比测试员选出真人的比例还要高！也就是说，在某种程度上，“戏精” GPT-4.5 比真人更像真人！
同样开了“有人设”的LLaMa-3.1，也有56% 的时间被认为是真人。这说明很多人已经很难分清它和真人了。
而“老古董”ELIZA和没开“人设”的GPT-4o，就比较惨了，被认为是真人的概率只有23% 和 21%，一看就是机器人。
没开“人设”的GPT-4.5和LLaMa-3.1表现也差了一截，只有36% 和 38%的时间被认为是真人。

按照图灵测试的标准，只要让人分不清，就算通过了。所以，这项研究首次证明，当有了合适的“人设”后，GPT-4.5 和 LLaMa-3.1 真的能通过图灵测试！特别是 GPT-4.5，简直是“影帝”级别的表现！

这项研究成果于2025 年 3 月 30 日发布，UCSD的卡梅隆·琼斯和本杰明·伯根在arxiv上发表了论文《大型语言模型通过图灵测试》(Large Language Models Pass the Turing Test study from UC San Diego)详细阐述了实证证据，结论是LLM 通过了图灵测试。该研究的关键发现如下：

当提示采用人性化角色时，GPT-4.5 被误认为是人类的比例达 73%，显著高于真实人类参与者的选择率。
LLaMa-3.1-405B 的比例为 56%，与人类无显著差异，表明其对话能力已接近人类。
基线模型 ELIZA 和 GPT-4o 的表现较差，分别仅为 23% 和 21%，低于随机概率。

这项研究是首次实证证明人工系统通过标准三方图灵测试的证据，对 LLM 智能的辩论及其社会经济影响具有重要意义。

另一项 2024 年 6 月的报道显示，GPT-4 在类似设置中被误认为是人类的比例为 54%(GPT-4 has passed the Turing Test, researchers claim | Live Science)。此外，AI21 Labs 在 2023 年的在线实验“Human or Not?”吸引了 200 万用户参与 1000 万次游戏，32% 的参与者无法区分人类和机器(Large Language Models Pass the Turing Test — EA Forum)。

通过测试又怎样？

尽管这些发现引人注目，但图灵测试作为智能衡量标准的有效性广受争议。2025 年 4 月 4 日的 ZDNET 文章指出，GPT-4.5 的表现暴露了图灵测试的局限性(The Turing Test has a problem – and OpenAI’s GPT-4.5 just exposed it | ZDNET)。主要批评包括：

Hacker News 的讨论也质疑该研究的有效性，指出参与者可能未尽力识别 AI，可能因仅为赚取学分而参与(UCSD: Large Language Models Pass the Turing Test | Hacker News)。这强调了参与者动机对实验结果的重要性。

引发的其它思考：

“社牛”更吃香？研究发现，测试员判断时，更看重的是聊天语气是否自然、对话是否流畅、有没有独特的个性和真情实感，而不是知识多不多或者逻辑强不强。有时候，AI 表现得“傻”一点、“不完美”一点，反而更像人类。
“剧本”很重要！这次 AI 能成功，很大程度上是因为人类给它们设计了特定的角色和说话方式。这说明现在的 AI 很灵活，能根据人类的指示改变自己的行为模式，模仿不同的人。
图灵测试过时了吗？有人觉得 5 分钟的测试时间太短，可能没法完全暴露 AI 的缺点。但也有人认为，图灵测试这种互动式的评估方法，对现在的 AI 评估体系来说仍然很有价值。
测的是“像人”而不是“真聪明”？研究人员认为，现在的图灵测试与其说是测 AI 有多聪明，不如说是测它有多像人类，能不能在社交场合不被发现。

AI 这么像人，未来会怎样？

“打工人”要小心？在那些需要简单人际交流的领域，比如客服、在线咨询、社交媒体互动等，AI 可能会逐渐替代或补充人类的工作。
真假难辨的网络世界？以后和你在网上聊天的人，可能真假难辨，这可能会影响我们之间的信任和社交方式。
潜在的风险？如果 AI 太会“装人”并获得信任，一旦被坏人利用，可能会被用于欺骗、诈骗、传播谣言等坏事。所以，我们需要尽快建立相关的规则和技术手段来防范这些风险。

面对越来越像人类的 AI，你准备好了吗？你觉得人类最独特的价值是什么呢？LLM 通过图灵测试的能力具有深远影响。它挑战了传统对机器智能的看法，引发了关于意识、社会影响和伦理考虑的讨论。例如，如果 LLM 可信地模仿人类，这可能影响工作自动化、社会互动和数字通信的信任。2025 年 3 月的研究指出，随着 AI 发展，需要新的评估方法。

未来研究可能扩展图灵测试，包括知识挑战、使用专家评判或开发替代智能基准。ZDNET 文章提到，随着 AI 进步，人类判断可能不足，可能需要类似科幻中的 Voight-Kampff 测试的机器评估系统(The Turing Test has a problem – and OpenAI’s GPT-4.5 just exposed it | ZDNET)。

当然，本项测试的局限性（如关注人性化而非智能）需谨慎解读。围绕图灵测试的争议强调了需要更全面的评估方法，以理解 AI 能力及其社会影响。

总而言之，这次大型语言模型通过图灵测试，是人工智能发展的一个重要里程碑。它让我们重新思考什么是“智能”，人与机器的关系将如何发展，以及在这个 AI 日益强大的世界里，我们人类应该如何自处。

Let's Make AGI Real