AI自主经验时代:超越人类数据

AI Agent 的范式转变

AI 正即将迎来一个以经验学习为主导的新时代。AI 发展的下一个阶段将是从依赖人类数据学习转向 AI Agent 通过与环境互动进行自主经验学习的范式转变。当以大型语言模型(LLM)为代表的“人类数据时代”遇到瓶颈时,让 Agent 从自身经验中学习将是实现超越人类智能(AGI)的关键. 这也标志着继“人类数据时代”之后,AI 发展进入了一个新的阶段.

《经验时代》:新版“苦涩的教训”

强化学习先驱Rich Sutton与David Silver 合著的文章《Welcome to the Era of Experience》(https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf)被认为是《苦涩的教训》(The Bitter Lesson)的 2.0 版本。就像《苦涩的教训》指出应该减少人类先验知识的干预并依赖计算规模一样,《经验时代》则是在当前的 Agent 框架下,强调让 Agent 通过自主探索和与环境互动来学习,而非仅仅模仿人类数据. 这篇文章被视为未来 AI Agent 发展的重要指引.

人类数据时代的局限

当前以大语言模型为代表的“人类数据时代”虽然在很多任务上取得了显著进展,例如撰写诗歌、解决物理问题、诊断医疗问题和总结法律文件,但存在一些根本性的限制:

  • 难以超越人类智能:模仿人类数据很难产生超越人类水平的智能.
  • 高质量数据瓶颈:高质量的人类数据逐渐枯竭,难以通过增加数据持续提升性能. 高质量的人类数据源要么已经被消耗殆尽,要么很快就会被消耗殆尽,仅靠监督学习驱动的进步正在放缓.
  • 无法学习新知识:对于超出人类现有认知的新的理论或发现,人类数据本身就不包含,因此基于这些数据训练的 Agent 无法学习. 更重要的是,许多新的重要见解,例如新的定理、技术或科学突破,超出了当前人类理解的范围,无法通过现有的人类数据捕获. 在数学、编程和科学等关键领域,从人类数据中提取的知识正迅速接近极限.

经验时代的核心:自主学习与环境互动

“经验时代”的核心在于Agent 需要通过与环境互动,自主产生数据并从中学习. 这种学习方式摆脱了对人类数据的依赖,从而克服了上述局限. 为了取得进一步的重大进展,AI 需要新的数据来源,这种数据必须随着 Agent 能力的增强而不断改进. 这可以通过让 Agent 不断地从自身的经验中学习来实现,即通过与环境互动产生的数据.经验将成为主要的改进媒介,并最终超越当今系统中使用的人类数据的规模. 未来的 Agent 需要自主地(autonomously)与真实世界(real world)进行互动.

AlphaProof 案例:经验学习的潜力

DeepMind 的 AlphaProof可以更直观地展示经验学习的优势。AlphaProof 是一种基于强化学习的方法,用于解决数学证明问题,并达到了国际奥林匹克银牌的水平. 与主要使用人类数学证明数据训练的大语言模型不同,AlphaProof 仅使用了人类提出的数学问题(informal problems),并将其转化为机器可读的 Lean 语言,然后通过模型自主生成和验证证明进行学习,不依赖人类的证明过程. 对比实验表明,目前主流大语言模型在真实的奥林匹克数学竞赛题上的表现远不如 AlphaProof.

经验时代的关键要素

基于经验的学习范式下,AI Agent 可能具备以下关键特点和能力:

  • 从长期经验中学习,而非短期的片段化互动.Agent 将存在于持续的经验流中,而不是短期的互动片段. 这将使其能够实现长期的适应和学习,并为实现未来的目标采取行动.
  • 更多基于环境的互动,而非简单的人类对话.它们的行为和观察将更丰富地植根于环境之中,而不仅仅是通过人类对话进行互动. Agent 将能够自主地在数字世界和现实世界中行动,使用用户界面、执行代码、调用 API,甚至操作物理设备.
  • 来源于与环境真实互动的 Reward,而非人类偏好.它们的奖励将基于其对环境的经验,而不是来自人类的预先判断. 奖励可以直接来源于环境信号或 Agent 与环境互动的真实结果,并且可以根据用户反馈灵活调整. Reward 信号的选择甚至可以通过神经网络学习和动态调整.
  • 基于自身经验进行规划和推理,而非利用人类预设的方法.它们将计划和/或推理经验,而不仅仅是用人类的思维方式进行推理. Agent 可以摆脱必须使用人类语言思考的限制,并与真实世界互动进行假设、实验和观察,从而更新内部认知. 构建预测 Agent 行为后果的世界模型是实现这种互动的一种方式.长期记忆(Long-term Memory)被认为是实现 AI 自我进化的基础. Agent 还可以自主决定使用人类友好或机器友好的交互方式,甚至远程操控物理设备进行实验.

为何现在是经验时代?

以人类为中心的 AI 已经遇到瓶颈,其自主发现能力较弱,难以解决真实世界中开放性的问题. 因此,回归到更少人为干预、让 Agent 长期自主地与环境互动并从自身经验中学习的强化学习方法,可能是未来实现更强大 AI Agent 的关键.

未来展望与挑战

“经验时代”有望解锁前所未有的能力,例如个性化的长期助手和加速科学发现. 然而,它也带来了重要的风险和挑战,包括潜在的就业岗位流失和对 Agent 长期自主行为的信任与责任问题. 尽管存在安全风险,但经验学习也可能带来安全益处,例如 Agent 能够适应环境变化和纠正不良行为.

总结

总而言之,“经验时代”标志着 AI 发展的一个关键时刻. 通过超越人类衍生数据的限制,让 Agent 主要从与世界的互动中学习,将释放新的能力,并在许多领域超越人类的水平. 这需要重新审视和改进经典的强化学习概念.



留下评论