Alpha舰队:驶向AI的星辰大海(三)

第二幕:青出于蓝——从零学习

AlphaGo的胜利虽然辉煌,但它仍然站在人类巨人的肩膀上——它的初始训练离不开数千万盘人类专家的棋局。DeepMind的终极目标是创造出真正通用的智能,这种智能不应被人类现有的知识所局限。于是,一场更深刻的革命悄然酝酿,其核心思想是:能否让AI彻底摆脱人类导师,实现“无师自通”?

1.“零”之革命:无师自通的学习者

AlphaGo Zero的诞生,正是对这个问题的响亮回答。它的名字中的“Zero”寓意着“从零开始”,其最核心的特点是:在训练过程中完全不使用任何人类棋谱数据。它就像一个初生的婴儿,除了被告知围棋的基本规则(如棋子、棋盘、气、提子等)外,对这个游戏一无所知。它的学习方式是纯粹的tabula rasa(白板)——通过与自己下棋,从完全随机的落子开始,一步步探索和理解围棋的奥秘。

这种自我对弈(self-play)的强化学习方式意义深远。它证明了AI不仅能达到人类的水平,更能独立地重新发现并超越数千年来人类积累的全部围棋知识。这从根本上解决了AI发展的一个巨大瓶颈:对大规模、高质量、有时甚至根本无法获取的人类专家数据的依赖。正如DeepMind的首席研究员大卫·席尔瓦(David Silver)所指出的,摆脱对人类学习的依赖,使得构建通用AI算法成为可能。

这一突破揭示了一个深刻的道理:人类的知识既是宝贵的财富,也可能是一个“牢笼”。它包含了历史形成的偏见、固有的思维定式和想象力的边界。一个从零开始的系统则不受这些束缚,它能够自由地探索整个可能性空间,从而发现那些隐藏在人类认知之外的、更优的解决方案。AlphaGo Zero的成功,正是这一理念的完美体现。

2.更优雅、更强大的架构

为了实现纯粹的自我学习,DeepMind对AlphaGo的架构进行了大刀阔斧的简化和改进,使其变得更加优雅和强大:

  • 统一的神经网络:AlphaGo Zero摒弃了前代产品中分离的策略网络和价值网络,转而采用一个统一的、更强大的神经网络。这个网络共享大部分参数,但有两个不同的“头”(head),一个用于输出落子概率(策略头),另一个用于评估局面胜率(价值头)。这种设计不仅大大提高了计算效率,也使得网络能够学习到更通用的特征表示。
  • 摒弃蒙特卡洛“模拟”:原版AlphaGo在MCTS中需要进行大量的快速“走子模拟”(rollouts)来评估分支的好坏。AlphaGo Zero则完全取消了这一步。它的MCTS完全由那个强大而统一的神经网络来引导,每一次搜索都依赖于网络对策略和价值的精准预测,使得搜索过程更加高效和聚焦。
  • 纯粹的原始输入:AlphaGo Zero的输入特征极为纯粹,只包含棋盘上黑白棋子的位置信息。它移除了所有前代版本中为了帮助AI理解特殊棋形而加入的、由人类设计的辅助特征(hand-crafted features)。这使得系统更加通用,减少了人类偏见,也更容易被推广到其他领域。

这些架构上的简化,反而带来了性能上的巨大飞跃,证明了更纯粹、更第一性的方法论往往蕴含着更强大的力量。

3.空前的性能与通往通用之路

AlphaGo Zero的学习速度和最终达到的高度是惊人的。在仅仅3天的自我对弈(约490万盘棋)后,它的棋力就超越了击败李世石的AlphaGo Lee版本,并以100比0的悬殊比分获胜。在训练21天后,它达到了AlphaGo Master(曾匿名在网络上横扫人类顶尖棋手的版本)的水平。而在40天后,它超越了所有早期版本,成为了当时最强的围棋程序。

这一系列压倒性的胜利,雄辩地证明了从第一性原理出发进行学习的优越性。但DeepMind的脚步并未就此停止。他们将AlphaGo Zero的核心算法进一步提炼和泛化,创造出了AlphaZero。

AlphaZero是这一阶段演化的终极形态。它是一个真正的通用游戏算法。研究人员将完全相同的算法,不做任何针对性的修改,直接应用于另外两个规则迥异的复杂棋类游戏:国际象棋(Chess)和日本将棋(Shogi)。结果同样令人震撼:在仅仅经过几个小时的自我对弈训练后,AlphaZero就分别击败了当时世界上最强的国际象棋程序Stockfish和最强的将棋程序Elmo。AlphaZero的成功,是AI发展史上的一个里程碑。它清晰地表明,DeepMind创造的不是一个“围棋AI”,而是一种通用的学习机制。这种机制能够解决任何可以被形式化为拥有明确规则、可定义状态和可衡量目标的“游戏”的问题。这正是通用智能(AGI)的核心特征之一。从AlphaGo到AlphaGo Zero,再到AlphaZero,DeepMind不仅在棋盘上取得了胜利,更重要的是,它证明了其核心方法论的通用性——这是衡量智能的真正标尺。



留下评论