周登勇关于大型语言模型推理本质的深刻洞察

周登勇（Denny Zhou）是一位杰出的华人人工智能和机器学习专家，以大型语言模型（LLM）的推理机制和自监督学习研究闻名。他在中国出生，现在是Google DeepMind的高级研究科学家，领导了多项前沿AI项目，推动了从简单预测向高级推理的AI范式转变。

周登勇的教育背景扎实。本科毕业于中国清华大学计算机科学专业，随后在美国斯坦福大学获得计算机科学博士学位。在斯坦福期间，他师从知名教授，专注于机器学习和统计学习理论，并担任博士后研究员，积累了丰富的学术经验。这段经历为他后续职业生涯奠定了坚实基础。

职业上，周登勇曾在斯坦福大学从事访问学者工作，与科技公司合作。而后加入谷歌，先在Google Brain团队任职，后随团队并入Google DeepMind。他参与了PaLM等大型模型的开发，并探索LLM的提示工程和推理能力。

周登勇的研究贡献显著。他领导开发了“思维链”（Chain-of-Thought）提示方法，该技术通过逐步推理提升模型性能，在2022年NeurIPS论文中提出，已广泛应用于ChatGPT等系统。另外，他创新了Self-Consistency和Least-to-Most Prompting等自监督学习方法，帮助模型处理复杂任务而无需大量标注数据。他的论文发表于NeurIPS、ICML等顶级会议，被引用数千次，推动AI领域的创新。

周登勇以严谨作风和创新思维著称，曾获多项学术奖项，并在AI会议上演讲。他活跃于学术平台，指导年轻研究员。目前，他专注于提升AI模型的安全性和泛化能力，对全球AI发展产生深远影响。

以下是他近期在斯坦福大学的一次演讲的概要。在演讲中他系统性地梳理了大型语言模型（LLM）推理能力从诞生到演进的整个技术路线。他团队在理解和使用LLM推理能力方面奠定了基础，开创性地提出了思维链提示（Chain of Thought Prompting）和自下性（Self-Consistency）等关键技术。周登勇的观点不仅揭示了AI推理能力的本质，也对过去几年所有相关技术进行了深度总结，为我们理解LLM的“思考”提供了清晰而深刻的视角。

一、推理的定义：生成中间步骤

周登勇首先给出了一个清晰且可操作的推理定义，这一概念也成为该领域的共识：推理是在模型的输入（问题）和最终输出（答案）之间生成的所有中间步骤。他回避了关于模型是否真正“会推理”的哲学辩论，而是将“思考”这一模糊概念转化为工程上可实现和优化的具体目标。

他通过一个巧妙的“末尾字母拼接”任务来阐释这一概念。如果模型直接给出答案，它可能只是预测下一个最可能的字符，而非执行多步骤逻辑操作。但若引导模型生成中间步骤（例如，“X的最后一个字母是L，Y的最后一个字母是E，将L和E拼接起来得到LE”），这就符合他所定义的推理——将复杂任务分解为一系列简单、可执行的子任务，最终导出正确答案。值得注意的是，周登勇曾尝试“首字母拼接”，但由于互联网上大量缩写词的存在，模型能够轻易完成，这表明模型是“背”下了模式而非真正理解。

二、中间步骤的重要性：解锁复杂问题解决能力

为什么如此执着于生成这些中间步骤？周登勇指出，这背后有坚实的理论依据。他与斯坦福大学滕上华教授团队的合作研究表明：对于任何可通过大小为T的布尔电路解决的问题，一个常数大小的Transformer模型可以通过生成OT长度的中间步骤来解决。这意味着，即使是一个相对简单的Transformer模型，只要允许它生成足够长的“思考过程”（即中间步骤），它就有潜力解决几乎任何可计算的问题。

相反，如果强迫模型直接给出最终答案，则相当于要求模型本身的网络深度足以模拟整个复杂的计算过程，这要么需要巨大到不切实际的深度，要么根本无法解决问题。因此，让模型“思考”并生成中间步骤，是在计算原理上解锁模型解决复杂能力的一把金钥匙，彻底改变了我们训练和使用LLM的范式，从单纯追求答案转向追求过程。

三、预训练模型已具备推理潜力，关键在于解码过程

周登勇提出了一个颠覆当时普遍认知的观点：预训练模型早已准备好进行推理，我们所需要做的仅仅是改变解码过程。当时普遍认为，普通预训练模型不具备推理能力，必须通过思维链提示或专门微调才能教会它们。

他通过一个数学应用题（“我有三个苹果，爸爸比我多两个，我们总共有多少个？”）来证明。如果使用默认的贪婪解码（模型总是选择当前概率最高的词），模型很可能会直接输出“五”，因为它看到了“三”和“多两”就直觉地联想到“五”。然而，模型的强大之处在于其输出概率分布中并不仅仅只有这一个选项。

周登勇展示，如果不那么贪婪，而是探索那些概率稍低的“岔路”，奇迹就会发生。模型可能生成包含完整推理链的正确答案（例如：“我有三个苹果，我爸爸比我多两个，所以他有五颗苹果，3+5=8，所以我们总共有八颗苹果。”）。这表明，正确的推理路径其实一直存在于模型的输出空间中，它们就像隐藏在主干道旁边的小路，默认的贪婪解码因只看到眼前最宽的路而错过了它们。这一发现被称为思维链解码。

四、寻找最佳输出：置信度与思维链解码

在众多候选输出中，如何选择最好的？周登勇的团队发现了一个比看长度更可靠的指标：答案置信度。他们观察到，对于那些包含了正确思维链的回答，模型在生成最终答案的那个词时，其内部的置信度（概率）会异常的高。例如，在苹果的例子中，模型预测“八”这个词的概率可能高达98%。

因此，思维链解码的核心是两步：

超越贪婪解码：生成并检查更多候选输出。
选择置信度最高的候选：选择那个对最终答案置信度最高的候选。

五、提示工程：用自然语言重塑概率分布

为了让普通用户也能便捷地利用模型的推理能力，研究者们开始思考如何用更自然的方式（如自然语言）重塑模型的输出概率分布，让带有思考过程的优秀答案能自动排到第一名，从而用最简单的贪婪解码直接得到。这引出了两大提示工程技术：

思维链提示（Chain of Thought Prompting）：这种方法非常直观。在提出问题之前，先给模型看一两个类似的从问题到思考过程再到答案的例子。这些例子极大地提升了模型生成类似思考过程句式的概率，将原本隐藏的正确推理路径推到了最前面。但其局限性在于需要手动编写高质量示例，且如果用户自己知道解题方法，则无需再问AI。
“请一步一步思考”（Let's think step by step）：周登勇坦言，当这篇论文出来时，他以为是玩笑。但在谷歌内部PaLM模型上测试后，他震惊地发现，这个“咒语”真的有效，模型自动开始输出一步一步的解题过程。尽管这种零样本提示（zero-shot prompt）效果通常不如少样本（few-shot）思维链提示，但它证明了可以用非常通用的方式激发模型的推理潜能。

六、微调：让推理能力内化

提示方法虽然有效，但感觉不够“智能”。周登勇指出，我们需要更稳定、更内化的方式，让推理能力成为模型固有的组成部分，而非需要外部咒语触发。这便引出了微调（Fine-tuning）。

监督微调（SFT）的局限：SFT的思路是雇佣人类专家针对大量问题编写高质量的、一步一步的解题方案，然后用这些标准答案训练模型，让模型生成的序列与人类专家写的一模一样。早期这种方法在训练数据相似的问题上表现良好。然而，周登勇的团队在2021年夏天发现SFT训练出的模型泛化能力很差。一旦遇到类型稍新、稍不同的问题，就很容易失败。即使扩大数据规模，问题依然存在。周登勇强调了一个重要教训：“不要盲目地扩大规模，当你的范式本身是错误的时候，再多的数据也无济于事。”。

“人是错误的”：自我提升（Self-Improvement/STAR）范式：周登勇给出的答案令人大吃一惊：错误出在人身上。自我提升范式的流程是：

从一批问题开始，但不再找人类编写解题步骤。
让一个已相对强大的LLM自己针对这些问题生成大量多样的解题步骤。
最关键的一步是使用一个“验证器”（Verifier）去检查模型生成的这些解题步骤，看哪个最终得出了正确的答案。例如，对于数学题，已知标准答案即可直接判断。
只保留那些过程多样但结果正确的生成结果，将它们作为新的高质量训练数据。
用这些由模型自己生成并经过验证的“好数据”再去微调模型自己。

这个过程可以不断迭代，形成一个自我进化的闭环。

为什么模型自己生成的数据在训练效果上会比人类专家手写的更好？这蕴含着机器学习的“第一性原理”：直接优化你想要的东西。在SFT中，目标是模仿人类的解题步骤，假设人类思维是最优的，但人类思维方式多变、充满跳跃和不一致。而在新的范式中，目标变为最终答案是否正确。我们用最终答案的正确性这个指标（相当于强化学习中的奖励信号）来指导模型的学习。通过这种方式，模型会自己探索什么样的思考过程能够最稳定、最泛化地导向正确答案，这些过程可能与人类思维不完全一样，但更符合模型自身内部结构的S学习路径。

周登勇强调，在整个自我进化的循环中，最最关键的环节是那个“验证器”。一个可靠的、能自动判断答案好坏的验证器是整个新范式的基石。这印证了理查德·萨顿（Richard Sutton）在2001年的文章《验证是通往人工智能的关键》中的洞见。

七、 LLM推理的本质：类人启发式推理

通过自我进化训练出的模型，其推理能力达到了前所未有的高度，所展现出的智慧与经典的（程序化）人工智能有着本质不同。周登勇引用国际象棋大师卡斯帕罗夫对深蓝的评价，指出深蓝的强大在于穷举式搜索，是“程序化的智能”。

但LLM的推理完全不同，它是一种类人的启发式推理过程，是从海量的语言数据中涌现出来的，而不是依赖于任何显式的、暴力的搜索。他分享了一个令人惊叹的例子：让模型使用数字1到10（每个数字用一次）通过加法和乘法运算得到2025。模型没有穷举搜索，而是像一个顶尖的数学家，通过洞察（例如，2025是45的平方）、启发式思考和目标分解，一步步逼近答案。

周登勇进一步对理查德·萨顿的“苦涩的教训”（AI领域成功的方法只有学习和搜索）提出看法：也许我们只关注学习就足够了。一个通过大规模学习训练出来的模型，其内部涌现出来的推理能力本身就可以完成过去需要依赖搜索才能完成的任务。当然，搜索可以作为外部工具被模型调用（如计算器），但在构建模型核心推理能力时，重点应放在学习。

八、提升推理性能的前沿技术

即使通过强化学习微调训练出的模型已经非常强大，周登勇还介绍了两种在推理时进一步压榨模型性能、提升结果可靠性的前沿技术：

聚合与自下性（Aggregation and Self-Consistency）：

数学本质：模型的数学本质是生成整个思考过程和答案序列联合概率最高的那个。但作为用户，我们只关心最终答案是否正确。这两个目标不同，后者需要将所有可能导向该答案的推理过程的概率全部加起来（数学上叫边缘化，非常困难）。
方法：自下性（Self-Consistency）是一种简单而有效的近似方法。我们不再使用确定性的贪婪解码，而是开启随机采样，让模型针对同一个问题生成多个不同的、多样的从推理过程到答案的序列。然后，完全忽略所有推理过程，只看最终答案，进行投票。哪个答案出现的次数最多，就认为哪个是最终的正确答案。
原理：其直觉是如果一个答案是正确的，那么通往这个答案的道路应该有很多条，即使模型在某条路上犯了小错误，它在另一条路上可能就走对了。正确的答案会在多次尝试中反复稳定地出现。
效果：这一简单技巧带来了惊人的性能提升。例如，在GSM8K基准测试中，GPT3微调后准确率约33%，加入自下性技术后，准确率飙升到75%，相对提升接近50%。在更强的PaLM2上甚至达到92%。这充分说明，模型的单一输出可能存在偶然性，但它多次输出的共识则具有高度可靠性。
局限性：自下性要求答案形式是唯一的，如一个数字。对于答案形式不唯一（如开放式问题）的问题，周登勇的团队提出了通用自下性（Universal Self-Consistency）方法，让模型自己判断哪个回答与其他的回答最一致。

检索（Retrieval）：

与推理的结合：周登勇认为，不应纠结于推理和检索的二元对立，将检索和推理结合起来，效果会更好。他务实地表示：“作为一名从业者，我只关心性能。”。
示例：

类比推理：在解决几何问题前，提示模型“请先回忆一个相关的问题，然后再解决这个问题”。模型会先生成一段话回忆距离公式，然后利用这个检索出的知识计算边长和面积。
退步思考：在解决复杂物理问题前，提示模型“退步思考一下解决这类问题所需的基本物理原理是什么”。模型会先总结出相关定律和公式，然后用这些检索到的原理指导具体解题过程。

意义：这些方法就是现在非常火热的检索增强生成（RAG）技术的思想雏形，都是将LLM的推理能力与外部强大的信息检索能力结合起来。一个强大的推理系统必然是开放的，懂得如何利用外部知识。

九、周登勇的四大黄金法则与未来挑战

周登勇对整个LLM推理技术演进做了精炼总结，可概括为四条经过实践检验的黄金法则：

有推理优于无推理：生成中间步骤是解锁复杂问题解决能力的基础。
强化学习微调优于SFT：让模型在正确答案的引导下自我进化，远比单纯模仿人类更有效。
聚合多个答案优于单次生成：利用自下性等方法，汇集模型的集体智慧，可以大幅提升可靠性。
检索加推理优于纯推理：将模型的内部推理与外部知识库相结合是未来的方向。

展望未来，周登勇也指出了当前面临的巨大挑战：我们今天讨论的所有技术，尤其是强化学习微调和自下性，都严重依赖于一个前提——任务的答案是可以被自动验证的。例如，数学题有唯一答案，代码题可通过单元测试。但在现实世界中，大量更有价值的任务并没有这样的验证器，比如创意写作、代码设计和战略规划。在这些没有唯一正确答案、充满主观性和复杂权衡的领域，如何定义奖励，又如何构建验证器？这可能是下一代人工智能需要突破的最大瓶颈。

他呼吁研究界，应该把更多的精力从基准测试刷分转移到构建真正能解决实际问题的应用上，因为所有的基准测试都很快会在模型能力提升下达到饱和。

最后，周登勇引用物理学家理查德·费曼的话“真相最终总比你想象的更加简单”来结束演讲，指出无论是思维链、自下性还是强化学习微调，其背后的核心思想都惊人的简单，甚至可以说回归了最本源的原理。

Let's Make AGI Real