AI的“下半场”:姚顺雨的洞见与大模型的效用革命

在人工智能(AI)研究领域,有不少杰出的华人学者,姚顺雨博士无疑是一位佼佼者。他毕业于清华大学,并在普林斯顿大学取得了计算机科学博士学位,目前就职于OpenAI。凭借在语言Agent领域的开创性工作,例如思维树(Tree of Thoughts, ToT)概念、ReAct方法以及Cor架构都是他首先提出。近期,他发表了一篇名为《AI的下半场》的博客文章(https://ysymyth.github.io/The-Second-Half/),对人工智能的未来发展方向进行了深刻的探讨,引发了广泛的关注和思考。

AI发展的“中场休息”:从方法创新到效用为王

姚顺雨博士认为,当前人工智能正处于一个被称为“中场休息”的特殊阶段,标志着AI发展重心的一次重大转变。回顾AI的“上半场”,研究主要聚焦于开发新的训练方法、模型和网络架构,例如反向传播、AlexNet和Transformer等。那时的核心目标在于“如何”让AI更智能,而评估主要通过基准测试进行,这些测试在很大程度上被视为验证新方法有效性的工具。一个明显的例子是,像提出Transformer架构、AlexNet以及GPT-3等具有基础性突破的训练方法的论文,其引用量远高于建立基准测试的论文,这表明方法创新在AI上半场占据着核心地位。这些创新方法,如Transformer,展现了强大的普适性,从机器翻译到计算机视觉、自然语言处理和强化学习等多个领域都产生了深远影响。然而,随着这些技术积累达到一个临界点,AI的发展重心正发生根本性的转变。

AI的制胜“配方”:预训练、规模化与推理行动

展望未来,姚顺雨博士提出了AI发展的“配方”,其中包含了大规模的语言预训练、Scale(扩展)以及推理和行动。他从强化学习的角度对此进行了解释。传统的强化学习研究往往将重心放在算法的优化上,而忽略了环境和先验知识的重要性. 然而,随着深度强化学习的发展,研究人员逐渐认识到环境和先验知识对于算法性能至关重要。例如,OpenAI曾构建Gym和Universe等通用强化学习环境,但发现在解决计算机使用或网页导航等难题上仍面临挑战,且Agent难以跨领域泛化。直到GPT-2和GPT-3的出现,研究人员才意识到先验知识(通过大规模语言预训练获得)才是关键。预训练能够将通用的世界和语言知识编码到模型中,使得微调后的模型如WebGPT或ChatGPT能够改变世界。这表明,在强化学习乃至更广阔的AI领域,先验知识的重要性可能超越了算法本身。此外,姚顺雨博士强调“推理是增强的行动”。通过预训练获得的知识,AI智能体在采取实际行动之前能够进行内部推理和规划,从而更高效、更有目标地完成任务。ReAct等研究成果正是对AI推理能力的深入探索。

挑战与反思:基准测试的局限与“效用问题”的凸显

尽管AI在现有基准测试中取得了显著的进步,例如在TriviaQA、MMLU、数学和软件工程等任务中都展现出快速提升的趋势,但这种进步并未带来预期般巨大的现实世界变革,这引发了对当前评估方法有效性的质疑。姚顺雨博士将这个问题称为“效用问题”,并认为这是AI发展过程中最重要的问题之一。他指出,现有的发展模式——开发新的训练方法以提升基准测试成绩,然后再创建更难的基准——正面临困境。当前的“配方”已经使得基准的提升逐渐标准化和工业化,新的方法可能只能带来有限的性能提升,而现有模型通过优化可能实现更大的飞跃。更重要的是,即使不断创建更难的基准,它们也可能越来越快地被现有方法所攻克.

重新定义智能的标尺:迈向更真实的评估体系

“效用问题”的根源在于我们现有的评估设置在许多基本方面与现实世界的实际情况存在差异。姚顺雨博士批判了当前评估方法中存在的两个主要假设:自动化评估独立同分布(IID)任务。现实世界的许多应用需要人机交互长期学习,而当前的基准测试往往是单轮、孤立的任务,无法捕捉这些关键要素。例如,与客服的沟通是多轮交互的过程,而软件工程师解决问题时会随着对代码库的熟悉而不断提高效率,这些现实场景的复杂性在现有基准中难以体现。

为了更好地评估AI的实际效用,姚顺雨博士强调我们需要从根本上重新思考评估的方式,创建全新的评估体系,而不仅仅是创建更难的基准测试。这可能需要我们质疑那些习以为常的基本假设,例如自动化评估和独立同分布。一些新的评估框架正在涌现,例如Chatbot Arena和TBCH,以及Tletbench(可能指的是Blockbench)。这些框架旨在模拟更真实的交互场景,包含工具的使用、领域规则的遵循以及与模拟用户的多轮对话,例如模拟航空订票等真实场景。这类评估方法能更全面地考察AI的理解能力、规则遵循能力和交互能力。

意义与展望:从追求分数到创造价值

姚顺雨博士的《AI的下半场》深刻地揭示了人工智能研究正处于一个关键的转折点。未来的研究方向将从注重训练方法和在现有基准上获得更高的分数,转向重视评估AI在解决实际问题中的效用,并开发能够反映交互、情境和累积学习的评估方法。这标志着AI发展模式的转变,从前期通过增量式的方法和模型来推动,到后期需要从众多的方法中进行筛选,并创造新的假设以打破现有通用性的局面。

这篇文章的重要意义在于,它促使人工智能研究界重新审视自身的发展方向,将重心从对纯粹技术指标的追求转向对现实世界价值的创造。正如SwissCognitive所强调的,我们可能已经到达了AI发展的“第二张棋盘”,即指数增长变得非常显著,带来快速和变革性变化的临界点。在这个关键时刻,姚顺雨博士的前瞻性思考,如同为AI研究指明了新的航向,引导我们思考如何利用AI来开发有用的产品,创造出巨大的经济和社会价值。 “效用问题”的解决和更真实的评估体系的建立,将是推动AI持续发展,使其真正服务于人类社会的关键所在。



留下评论