AlphaEvolve：AI自主算法进化，突破百年难题，开启智能新纪元

引子：发现新科学的AI已在眼前

上周（5月14日），谷歌 DeepMind 再次成为焦点，推出了一款名为AlphaEvolve 的新型人工智能系统。它被定位为谷歌“Alpha”系列（包括 AlphaGo, AlphaFold 等）的最新成员，并且不仅仅是一个遵循指令生成代码的工具，而是一个能够自主“进化”并发现全新算法和解决方案的强大智能体。AlphaEvolve 由 Gemini 系列大型语言模型提供支持，旨在自主发现科学规律，重塑科学发现范式。创造一个“牛顿AI”似乎已经为期不远了！

核心揭秘：算法进化的“三体”架构

AlphaEvolve 的核心在于其精妙的技术架构，它创造性地融合了三大关键支柱：大型语言模型 (LLMs)、自动化评估机制 (Automated Evaluation)以及进化算法 (Evolution)。

大型语言模型的创造力引擎：AlphaEvolve 利用先进的 LLMs，特别是 Gemini 2.0 Flash 和 Gemini 2.0 Pro 的组合。Flash 模型速度快，能够像广度优先搜索一样，高效生成大量不同的代码思路和修改提案。Pro 模型虽然慢一些，但能力更强，能提供更高质量、更具突破性的建议。LLMs 不仅负责根据问题描述生成初始代码框架，还能在迭代过程中充当“代码生成器”，基于成功的代码示例、性能指标和任务指令，提出对现有代码库的特定修改（通常以差异diff的形式）。LLM 甚至能作为数学推理助手，分析代码，识别潜在数学规律，甚至涌现出数学假设。此外，LLM 还能为难以量化的方面（如代码简洁性）提供辅助反馈，引导演化方向。系统甚至能够改进用于引导 LLM 的提示词本身(meta-prompt evolution)。
自动化评估的客观仲裁者：这是 AlphaEvolve 的关键且核心所在。与依赖人类手动反馈或奖励不同，AlphaEvolve 依赖机器可执行的自动化评估器对每一个生成的候选程序进行测试和评分。评估器以程序化的方式验证解决方案的正确性或衡量其性能。这种能力要求解决的问题必须是可以被数学或算法形式化，并能通过编程方式自动验证和量化的。评估结果客观反映了程序的“适应度”，使得系统能够识别并保留表现最佳的方案。评估过程可以并行化以加速迭代，并可采用评估级联，即先在简单测试中快速过滤，再对通过者进行更难测试。这有效地减少了“幻觉”问题，确保了解决方案的正确性。
进化算法的持续优化引擎：系统始于一个初始的代码实现，并将其视为需要进化的“有机体”。然后进入一个迭代循环，通过 LLM 引入的“变异”（代码修改）生成大量候选程序。自动化评估后，表现最优的方案被保留下来，作为下一代的模板并可能被重组，激发未来迭代的灵感。系统将生成的代码和评估结果存储在程序数据库中，以供参考，避免重复，并确保探索思路的多样性。进化算法通过管理数据库，平衡探索新方案和利用现有优秀方案(例如使用 MAP-Elites 等机制)，同时通过随机突变和异步执行探索更广泛的解决方案空间，这使得它能够发现和生成新颖、高性能、有时甚至是反人类直觉的解决方案。与人类思维可能受限于固有思路不同，进化算法可以遍历所有可能性。AlphaEvolve 能够进化包含数百行代码的完整程序，并且可以处理任何编程语言。

辉煌战绩：从数学前沿到谷歌腹地

AlphaEvolve 已在多个领域展现了令人瞩目的突破性成果。

数学与科学领域的突破：

AlphaEvolve 被应用于超过 50 个开放性数学问题，涵盖分析、几何、组合学和数论等领域。
在约75% 的案例中，它成功重新发现了已知最佳解决方案或构造。
更重要的是，在约20% 的案例中，它发现了比先前已知最佳方案更好的新构造，改进了现有技术水平，这被视为人工智能推动人类进步的一种方式。
显著成就包括改进Erdős 最小重叠问题，以及改进“亲吻数问题”（kissing number problem）。对于困扰数学家 300 多年、甚至牛顿也研究过的这一几何难题，AlphaEvolve 在 11 维空间中将已知最佳下限从 592 提升到593，并找到了包含 593 个外接球的新构型，建立了该问题的最新下界。这可能推动密码学和编码理论等领域的发展。它还在六边形填充问题和圆填充问题中找到了新的排列模式和构型。

计算机科学领域的里程碑：

在计算机科学基础运算矩阵乘法中，特别是对于 4×4 复值矩阵，自 1969 年 Strassen 算法提出最优乘法次数为 49 次后，该记录保持了长达 56 或 57 年。
AlphaEvolve 通过自主发现一种只需 48 次乘法的新算法，打破了这一长期记录。这项发现令研究者感到难以置信，需要反复验证。它通过先进的张量分解技术实现。

.优化谷歌内部基础设施与AI自身：AlphaEvolve 的发现已被部署到谷歌的全球服务中，带来了切实的效率提升。

数据中心调度 (Borg):AlphaEvolve 进化出了一种新的启发式策略，提高了谷歌数据中心任务调度系统 Borg 的效率。这一策略简单而有效，平均提升了 0.7% 的计算资源使用率或全球计算可用性。考虑到谷歌庞大的服务器规模，这意味着每年节省数亿美元，这些优化方案已投入生产超过一年。AlphaEvolve 的代码解决方案被选用而非深度强化学习，是因为其在可解释性、可调试性、可预测性和部署简易性方面具有优势。
AI 模型训练 (Gemini):AlphaEvolve 用于优化其母体——Gemini 大模型的训练过程。它改进了 Gemini 底层的矩阵乘法核心，将 Gemini 关键矩阵乘法运算加速了 23%，并将 Gemini 的总训练时间缩短了 1%。更重要的是，通过自动化实验，将优化计算核心所需的时间从数月的人工努力减少到只需数天。这真正形成了用 AI 训练 AI的闭环。
硬件设计 (TPU):AlphaEvolve 成功重写了一段用于矩阵乘法的Verilog 硬件描述代码，简化了 TPU 矩阵乘法单元中的关键算术电路实现。这些改变已被 TPU 设计师验证并集成到下一代 TPU 设计中(例如 Ironwood TPU)，标志着 Gemini 通过 AlphaEvolve 对 TPU 算术电路的首次直接贡献。
FlashAttention 优化:FlashAttention 是大型语言模型处理数据的关键部分。AlphaEvolve 通过编辑 XLA 中间表示优化了FlashAttention代码，将 GPU 上的核心推理时间加速了 32.5%(在 H100 GPU 上)，在其他 GPU 上也有不同程度的加速。它还在输入和输出的预处理和后处理部分找到了改进，带来了 15% 的加速。

划时代意义：迈向通用智能与自我进化

AlphaEvolve 的出现被视为AI 迈向通用人工智能（AGI）乃至人工超级智能 (ASI) 的重要一步。

自主创造与问题解决：AlphaEvolve 展示了 AI自主创造的能力，能够构建抽象问题并设计自己的解决方案。它能够迭代生成和完善假设，通过循环实验和评估来自我改进，无需大量监督训练。它既是理论家，又是实验家，模拟了一个自主的科学过程。
递归式自我改进 (RSI) 的早期迹象：AlphaEvolve 的一项关键能力在于它能够改进人工智能自身的软件和硬件堆栈。它改进了用于运行 AI 的芯片设计和自身的训练算法，并成功优化了 Gemini 的训练过程。这被视为一个“新颖的实例”，是人工智能递归式自我提升或自我演进的早期例证。它能够递归地应用于自身，改进评估器、变异逻辑、评分函数等组成部分。这种自我强化的迭代改进循环预示着加速的智能提升潜力，一些观察者认为这可能是智能爆炸（intelligence explosion）开始的迹象。
重塑科学研究与工程范式：AlphaEvolve 的自动化能力显著减少了原本需要大量人类工程师投入的任务，例如原本需要数月优化的工作现在只需数天。这使得人类工程师得以解放出来，专注于更具战略意义、更高级别的优化问题。未来的科研模式可能将是人机协作，人类负责提出有意义的问题并建立评估标准，AI 则在规则内进行高效探索。AI 正日益成为数学和计算机科学领域不可或缺的工具。AlphaEvolve 的出现标志着 AI 正从工具向合作者演进。其找到的新颖、有时反直觉的解决方案，尤其在人类容易陷入局部最优的情况下，具有重要价值。
更广泛的应用潜力：AlphaEvolve 似乎适用于任何结果可以量化，并且可以提供可被自动化评估器验证和评分的度量的领域。研究人员认为它有潜力在更广泛的领域带来变革，例如材料科学、药物发现、可持续性以及更广泛的技术和商业应用。它可以帮助科学家评估新的科学实验。
历史地位：AlphaEvolve 的出现被一些人比作 AlphaGo 当年的“神之一手”，甚至被认为是人类科学史上的“第 37 步”。它标志着 AI 从模仿人类走向创造知识，从解决问题走向定义问题。

前路挑战与未来展望

尽管取得了显著成就，AlphaEvolve 目前也存在一些局限性和挑战：

评估依赖性：其最主要的限制在于它只能处理那些可以设计和提交自动化评估器的问题。这使得它的实用性受限于可以用数学或算法形式化的问题，不太适合解决非数值问题或需要手动实验的任务。对于那些缺乏明确、程序化评估标准的问题（例如来自客户的模棱两可的应用需求）则不太适用。
可解释性与“黑箱”：AlphaEvolve 生成的解决方案有时难以被人类完全理解其工作原理，可能存在“黑箱”问题。其引入的策略并非总是基于现有数学理论，而是通过数据迭代涌现的结果。这可能对科研成果的验证和传统的学术评审机制带来挑战。
计算成本：对于非常困难的问题，可能需要大量的计算资源和时间来探索解决方案。
二元奖励问题：系统更擅长处理可以逐步改进的“形状化奖励”问题（如优化数值或性能）。对于只有对错之分的二元奖励问题（如证明数学定理），虽然理论可行，但缺乏中间反馈使其学习更困难。
现实世界评估的复杂性：从自动化验证到昂贵的真实世界实验存在评估成本差异，需要评估层级来桥接。
技术集中化：目前 AlphaEvolve 的能力主要集中在谷歌内部，这种技术集中化可能导致“AI 科研寡头化”，加剧科技领域的马太效应。目前它尚未开源或提供 API 接口。
突破定义争议：尽管多数来源认为其在矩阵乘法和亲吻数等问题上的成果是“突破性发现”，但有来源认为其尚未取得“突破性发现”，成功主要在计算机科学和系统优化领域，并指出 TPU 改进此前已被标记过。这反映了对“突破”性质的不同理解，可能侧重于基础科学 vs. 算法/工程优化。

尽管存在挑战，AlphaEvolve 的底层架构理论上可以递归地应用于自身，进一步完善其评估器、变异逻辑、评分函数等组成部分。这被视为一种通向 AGI 的引导机制。

未来方向

更大的进化数据库：随着 LLM 上下文窗口的增长，其数据库可以变得极其庞大。
更好的基础模型：AlphaEvolve 与具体模型无关，更强的基础模型（如未来的 Gemini 3）将使其内部的 LLM 更强大。
优化搜索算法本身：它不仅改进解决方案，还能改进寻找最优解决方案的搜索算法，持续改进探索方式.
更广泛鲁棒的评估函数/环境：随着系统能力提升，设计具备鲁棒评估函数的环境/问题将更受重视.
混合评估：整合符号推理、人类偏好和自然语言批评。
在模拟环境部署：实现对具体科学实验的评估。
将进化输出提炼入基础 LLM：训练出更强大、样本效率更高的基础模型.

AlphaEvolve 的出现，特别是在它已经能够优化自身训练过程和运行所需硬件的情况下，被视为 AI递归式自我提升能力的早期迹象。这仅仅是“非常、非常开始的阶段”，但它已经展示了人工智能改进自身能力以及革新广泛应用领域的巨大潜力。谷歌计划为选定的学者推出早期访问计划，并构建用户界面，同时探索更广泛的可获得性。然而，这种强大的能力也伴随着风险，需要透明度、监督和强大的伦理框架，并确保其被用于公共利益。

正如一些观察者所言，谷歌 DeepMind 凭借多年的积累和巨大的资源投入，在 AGI 和自我改进方面有可能取得领先地位。AlphaEvolve 的出现，展示了强大的迭代和搜索能力，特别是其自我改进 AI 自身训练和硬件的能力，被视为该实验室长期努力的成果。它的出现不仅是 AI 工具的进步，更是我们对机器智能理解的重大飞跃，重新定义了机器能够自主发现的内容。

附录：与谷歌另一个项目C0-Scientist的关系：

Let's Make AGI Real