一家名为 Sakana AI 的初创公司正在悄然改变人工智能的训练方式。由两位前 Google 科研骨干 David Ha 和 Llion Jones 于 2023 年创立,这家公司以自然界的鱼群命名,寓意着复杂行为可以由简单规则演化而成。如今,Sakana AI 不仅在技术前沿站稳脚跟,更提出了一个令人振奋的构想:让 AI 学会如何“教学”而不是仅仅“解题”。
重新思考训练的艺术
传统的强化学习方法曾是训练智能模型的重要工具,但也暴露出种种局限。奖励信号稀疏、计算成本高昂、泛化能力不足,以及教师模型目标错位,成为这些方法走入瓶颈的标志。而 Sakana AI 推出的“强化学习教师(Reinforcement Learning Teacher,RLT)”方法,正是针对这些问题提出的一种颠覆式回应。
在 RLT 中,AI 不再被鼓励去单纯找到答案,而是被赋予一个新的任务:向学生解释问题的解决过程。模型接收的不仅是问题本身,还有答案,它的目标是生成一段解释,足够清晰以帮助另一模型理解与学习。奖励机制也因此发生转变,不再基于自身是否“做对”,而是基于解释的教学效果。
从群体智能到科学突破
Sakana AI 的名字象征着集体智慧,而它的成果也的确展现出团队协同的力量。在短短两年内,该公司推出了数项突破性成果。其中最令人瞩目的之一,是一个被称为“达尔文哥德尔机器”的系统,这个系统可以重写自身代码,在多个标准测试中将准确率从低位提升数倍,表现远超同期技术。
此外,该公司还开发出了世界上第一篇由 AI 全自动生成并通过同行评审的科学论文,标志着生成式人工智能正在跨入严肃科学创作的门槛。更值得注意的是,这些成果均通过开源方式对外发布,反映了公司将 AI 民主化作为其核心理念之一。
教学模型的技术细节
RLT 的实现依赖于两个量化指标:一是“解决方案得分”,衡量学生模型能否基于解释正确地解决问题;二是“解释得分”,评估解释本身对学生理解的帮助程度。这种双重得分机制提供了密集、可调控的反馈,显著缓解了传统强化学习中“反馈稀疏”的难题。
RLT 所带来的好处不仅限于学术上的优雅。在实际应用中,它展现出了令人惊讶的性价比优势。一款仅拥有 70 亿参数的教师模型,居然在数学推理教学中超过了拥有 6710 亿参数的主流大模型。训练时间从原先的数月缩短为不到一天,训练成本则从约 50 万美元锐减至 1 万美元以下。
教育不是传授,而是唤醒
在 RLT 的世界中,“教学”不再是附属任务,而是核心驱动力。与其让模型“靠猜”找答案,不如让它“明白”答案的来龙去脉。这一理念在多个基准测试中得到了实证,包括美国数学邀请赛、MATH 和 GPQA 等挑战性数据集中,RLT 显著提升了学生模型的表现。
更有意思的是,这种教学方法所生成的解释,不仅逻辑清晰、推理严密,甚至在某些情况下还能弥补大型模型遗漏的关键步骤,呈现出某种近似“人类专家”的教育风格。
AI 教学的民主化前景
Sakana AI 的做法不仅为模型训练带来了新范式,也让原本资源门槛极高的 AI 教育过程变得更为平易近人。借助小型教师模型的高效训练能力,即使是中小型研究机构,也可以负担得起高级 AI 系统的构建与训练。
这一点,可能才是最具变革性的影响所在。它标志着 AI 研究正在从“巨头垄断”向“全民参与”过渡,从封闭开发走向开放协作。
自我教学的未来?
RLT 的意义不仅在于当前的性能突破,更在于它所指向的未来。这一方法为“自我教学 AI”奠定了理论基础:一个模型能否教会另一个模型,或者——教会自己?而这正与 Sakana AI 先前的“达尔文哥德尔机器”理念形成了互补——一个以自我进化为目标,一个以自我教学为路径。“达尔文哥德尔机”的目标是打造一个能够持续自我重写和改进的AI代理。这种“演化式自我优化”的理念,在RLT中得到了呼应:教师模型不断调整自身的解释策略,以更有效地训练学生。一个进化负责“怎么变”,一个教学负责“怎么学”,二者合力构成了AI自我提升的循环闭环。
当这两种机制融合,AI 不再只是被动接受人类设计的训练流程,而是主动构建自己的学习体系。我们正在进入一个 AI 不仅理解世界,更学会如何更好地理解自己的时代。
向通用智能更近一步?
Sakana AI 的工作提示了一个令人振奋的可能性:AI 可能正在逐步接管部分 AI 自身的研究任务。这不仅是对人类研究者的协助,更可能成为通向通用人工智能(AGI)的关键一步。
如果教师模型可以训练学生模型,是否意味着模型之间的教学可以循环?如果一个模型能够为自己生成解释,是否意味着它具备了某种程度上的“自我教学能力”?这些问题虽仍属前沿设想,但RLT无疑为这类可能性提供了可检验的工程路径。
比起盲目扩大模型规模,RLT所代表的是一种“后Transformer时代”的策略转型——不仅关注性能本身,更关注性能的生成路径。在这个视角中,“教学”不再是辅助任务,而成为智能的核心产出。
当然,距离这一步的实现尚需时日。但正如许多技术革命的开端一样,真正重要的往往不是成品,而是范式的转变。RLT 也许正是这样一个转折点。
尚未成范式,但已露锋芒
诚然,RLT 并非没有局限。它目前的验证仍集中于数学推理与符号逻辑任务,其能否适应更复杂、更开放式的问题空间尚待观察。同时,大模型厂商是否愿意接受“用小模型教大模型”的颠覆性逻辑,也将决定其传播速度。
但不可否认的是,Sakana AI 的这一突破已然为AI训练打开了一条新的思路。一种强调解释、效率与可传播性的技术路线,可能终将成为通向下一代智能系统的主要路径之一。
在参数规模进入收益递减的时代,也许下一场AI竞赛的主角,不再是“做题王”,而是“好老师”。
通过重新定义训练目标,Sakana AI 为整个 AI 生态系统打开了一扇新的大门。从“解题”到“教学”,从“巨型模型”到“精巧教师”,从“高门槛开发”到“人人参与”,这一系列转变不仅令人耳目一新,更可能重塑 AI 发展的底层逻辑。
最终,这场训练范式的革命,可能不仅重写 AI 的发展史,也将改写我们对“学习”本身的理解。

留下评论