Grok-4：马斯克不走寻常路的AI巅峰创举

我还是幼稚了。

看了马斯克松松垮垮的Grok4发布会，不外是各种Benchmark霸榜，承诺的很多东西都跳票，越发给人一种大忽悠的感觉。但听了一些业内资深人士的评论，似乎还有点东西。

有人甚至认为是对大模型审美疲劳的一种“突破”，让人“为之一振”。短短28个月内从零开始打造的大型语言模型 Grok-4 的发布就能做到这个程度，那就非Elon Musk的 XAI莫属。Grok-4 不仅在多项基准测试中跃居全球第一，其发展历程和技术特性都体现了马斯克及其团队非同寻常的远见和执行力。所以这里再来掰扯掰扯。

一、挑战不可能的计算集群与“幂律和连贯性”

Grok-4 最为“不走寻常路”之处，在于它克服了人工智能专家普遍认为不可能的挑战。当初，当 Elon Musk 宣布要搭建一个庞大的计算集群时，几乎所有专家都认为在如此规模下实现“幂律和连贯性”（即模型性能随计算量增加而呈指数级增长，并保持内在逻辑一致性）是不可能的。然而，Grok-4 的成功发布，让这些专家不得不承认“他做到了”。这背后是 XAI 公司巨大的计算资源投入，其集群目前拥有约 340,000 个 GPU，每颗 GPU 成本高达 30,000 美元甚至更高。这种规模的投入和在短时间内实现突破的能力，是其“过人之处”的显著体现。

二、独树一帜的训练范式

与传统 AI 模型主要依赖对互联网原始数据进行预训练、而微调（后训练）仅占计算量 1% 的做法不同，Grok-4 采用了 一种新的范式，在微调阶段（即初始阶段后对 AI 进行训练）的投入与预训练阶段的投入相当。这种创新方法得益于 XAI 团队找到了将推理链结构化的方法，并 利用前沿模型来生成下一代前沿模型所需的数据。通过大量计算资源创建结构化训练数据，使得模型的潜在空间更加智能，从而大幅提升了模型性能。这种训练策略上的大胆创新，是 Grok-4 能够实现超越的关键。

三、惊人的卓越性能与超越人类水平的表现

Grok-4 的性能表现令人印象深刻，多次展现出超越人类专家水平的能力，这是其“过人之处”的核心：

在 AIME（美国数学邀请赛）基准测试中，Grok-4 取得了 100% 的分数。这表明它在某些学术问题上已经达到了甚至超越了博士水平，有专家称其在所有学科的学术问题上都优于博士水平。
在由 Scale AI 和其他机构设计的、旨在挑战世界上最博学的人的 “人类终极考试” (Humanity’s Last Exam) 中，Grok-4 Heavy 达到了 44.4% 的分数。专家估计，即使是最聪明的人，在这种考试中也只能取得 5% 到 10% 的分数，人类在任何给定领域中表现最好的也只能达到 5%。Grok-4 的表现远远超出了人类的能力范围，展现了广泛的知识覆盖范围和卓越的问题解决能力。
专家预测，Grok-4 可能会在今年晚些时候发现新技术，并在明年之前肯定会发现新技术。甚至有专家推测，Grok-4 可能在明年或后年发现新的物理学原理。

四、显著的成本效益预期与广阔的应用前景

虽然目前 Grok-4 的令牌价格与同类模型相当（输入每百万令牌 3 美元，输出每百万令牌 15 美元），但其未来成本效益的显著提升预期，是其另一大“不走寻常路”的亮点。预计在未来一年内，随着新一代芯片（如 Vera Rubin）的推出以及算法和优化的进步， 成本每年将下降 5 到 10 倍。这意味着未来，一百万个高质量的智能词汇可能只需一美元，这将极大地降低 AI 的使用成本和普及门槛。

Grok-4 的发布，预示着人工智能将深刻改变多个行业，其应用前景广阔：

医疗领域：Grok-4 能够帮助科学家分析数百万份实验日志，挑选最佳假设（如 CRISPR 研究），并被独立评估为检查胸部 X 光的最佳模型。AI 在诊断方面的准确率可达 90% 以上，高于人类医生。
金融领域：结合实时信息工具，成为最受欢迎的 AI 之一。
游戏与影视：Grok 能够大幅加速游戏和电影制作。Elon Musk 预计今年将出现首部半小时的可观看 AI 电视剧，明年将出现首部可观看 AI 电影和首款真正出色的 AI 视频游戏。
编程与代码生成：Grok-4 在代码编写方面表现出色，能够生成干净的代码，XAI 团队也正大力开发专门的编程模型。未来“上下文工程师”将通过与 AI 对话来构建复杂系统。

五、Grok-5：迈向多智能体系统与“通用工人”的未来

专家们对未来的 Grok-5 充满期待，它将是 Grok-4 “过人之处”的进一步延伸。Grok-5 将成为一个 多智能体系统，拥有更多的“助推器”。它将集成一个“世界模型”，并能够与各种主流系统（如 Maya 和高级物理模拟器）互联互通。Grok-5 将能够编写自己的精简代码并进行数学优化，成为一个 用途极其广泛的工人。未来的 AI 模型将更加注重用户体验 (UI/UX) 和多智能体系统，变得异常易用，甚至能够设置 AI 团队去完成复杂任务。

总结

所以，Elon Musk 训练出 Grok-4 绝非一个模型那么简单，它的非凡之处在于，在极短的时间内从零开始建成一个强大的计算集群，并实现了被专家认为不可能的“幂律和连贯性”；还在训练策略上进行了创新，使得模型在微调阶段投入与预训练相当，从而达到了前所未有的性能水平，尤其是在复杂测试中展现出超越人类的能力。Grok-4 不仅是人工智能领域的一个“新里程碑”，更通过其“不走寻常路”的创新和“过人之处”的卓越表现，重新定义了人工智能领域的可能性，并有望在未来带来颠覆性的技术发现和成本效益的显著提升。

继续心疼老马！看好老马！

Let's Make AGI Real

留下评论取消回复