Grok4的HLE分数为什么会翻倍提高？

太平洋时间7月9日晚上8点（实际推迟到9点，即北京时间7月10日上午12点）马斯克直播了一场最素颜的发布会，以其一贯的旁若无人简陋风格，发布了Grok 4和Grok 4 Heavy两个版本的模型。一小时的发布会磕磕巴巴，承诺的大多数功能都跳票了，包括编码、多模态（视频、语音功能）和期待已久的x.com社交内容实时整合功能等，前者要推迟到以后几个月陆续发布，后者干脆啥都没说。因此Grok目前基本上还是一个超级聪明但只会说话和答题的盲人。不知道很多震惊体自媒体为什么还那么一脸震惊。这场发布会最大的亮点可能就是人类最终测试HLE（Humanity’s Last Exam）了。Grok 4的HLE分数大幅提升，几乎翻倍，让人不可思议，其他各家怎么那么菜？还是吃了什么神秘大力丸？这里简单推测下，大约源于以下四个关键因素：

一、什么是 HLE？为什么它具有代表性？

HLE 是一个由专家精心筛选的高难度跨学科问答集，共约 2,500 道题目，涵盖多个领域，普通模型得分极低。

即便是世界级模型，传统得分通常处于个位数或低双位数。

二、Grok 4 相较前代模型得分翻倍

单一模型版本（无工具能力、多次运行后统计平均）得分约为 25% 左右，高于 Gemini 2.5 Pro 的 ~21.6%。，当启用 Grok 4 Heavy（多代理）机制，并整合工具能力后，HLE 分数飙升至 45%–50.7%，相比 Gemini 提高接近一倍。

三、为何实现如此跨越？背后机制解析

多代理系统（Multi‑Agent Collaboration）

Grok 4 Heavy 在推理阶段会启动多个 AI 代理同时处理同一问题，各自独立探索解法，然后相互“比稿”与启发。模型之间互相纠错，采纳最佳方案。

这种“团队思考”机制有效地扩大了测试时计算能力（test‑time compute），显著提升准确率。

超大规模训练与强化学习投入

从 Grok 2 → Grok 3 → Grok 4，每代均实现至少 10 倍以上训练计算规模增长，到 Grok 4 时训练数据量与强化学习投入远超先前。

Reinforcement Learning（RL）训练尤其强化“第一性原理”推理能力，使模型能更准确地理解和拆解极其复杂的问题。

工具整合与实时信息获取

Grok 4 原生集成了实时检索（如访问 X 平台）与多种辅助工具（浏览器、编码环境等），帮助模型在推理中调用外部知识。这些工具能力特别在处理开放式问题时显著提升性能。

四、Reddit 用户视角摘录（声音来自社区）

以下 Reddit 用户评论反映了社区对这跳跃性提升的看法与争议：

这些评论点明了两个版本之间的差距：基础版本已领先，Heavy 版本则实现翻倍表现。

总结对比表

五、直观归纳：为什么分数能翻倍？

多代理协作：多个智能体并行思考，互相启发，提升解题能力。
训练规模激增：模型实现前所未有的训练密度与质量，尤其在 RL 上投入巨大。
工具集成：实时检索和外部工具让模型具备动态获取信息与辅助推理的能力。

六、推迟至未来几个月推出的功能

未来几个月会逐步上线的功能

Coding Model：下个月（8月）发布
MultiModal：9月发布
视频生成（Video Capabilities）：10月发布

在发布会上，团队提到 Grok 4 未来将扩展到视频理解/生成能力，但目前尚未正式推出，属于未来几个月内上线的新功能。

语音（Voice）选项进一步完善

虽然当场已宣布支持五种新的声音选择，并可模拟口音与唱歌，但真正完整的多种声音模式及语音交互机制可能还会继续在后续几个月得到增强和扩充。

SuperGrok Heavy 早期功能（Premium 订阅优先体验）

xAI 推出面向重度用户的 SuperGrok Heavy（每月 $300）订阅计划，订阅用户可优先使用未来几个月即将上线的新功能，包括但不限于上面提到的视频能力、语音扩展与工具集成等。

🕒 Tesla 车辆集成延后

虽然 Musk 明确表示 Grok 会在下周内推送到 Tesla 车辆上，但根据报道：

实际并未在发布会中详细说明具体上线时间；

Musk 在 X 上回复称最迟下周上线；

多方推测如果遇到技术问题，车辆上线时间可能推迟至 7 月底或更晚。

因此，“集成到 Tesla 车载系统”也可以认为属于稍后几周到几个月内逐步完成的事项。

具体推迟项目一览

七、总结

Grok 4 的 HLE 分数呈现大踏步翻倍式提升，并非偶然，而是基于其强大的架构创新：集训练规模、强化学习、多代理协同与外部工具于一身。这样全面的系统设计，使其在全球最难的推理问答集上取得显著领先地位。

Let's Make AGI Real

留下评论取消回复