xAI 于 2025 年 11 月 17 日正式发布了 Grok 4.1 模型。该版本已面向 grok.com、X 平台以及 iOS 和 Android 应用程序的所有用户开放,并立即在“自动”模式下推出。Grok 4.1 的核心目标并非单纯追求原始基准测试的高分,而是将前沿模型的焦点重新导向用户实际的使用体验和可用性。
xAI 创始人埃隆·马斯克(Elon Musk)表示,用户将“注意到速度和质量的显著提升”。Grok 4.1 的提升重点在于三个关键方向:更快的响应速度、更高的事实准确性,以及更自然、更具人格化的对话体验。
Grok 4.1 的核心突破与架构
Grok 4.1 基于 Grok 4 相同的强化学习基础设施构建,但引入了新的奖励模型系统,以优化模型的风格、个性、帮助程度和对齐性。Grok 4.1 的核心创新在于使用前沿的智能体推理模型(frontier agentic reasoning models)作为奖励模型,从而能够自主评估并大规模迭代响应。这种闭环系统迭代速度远超人工工作流程,尤其擅长处理人类难以始终如一地评估的细微标准,例如情感感知和风格连贯性。
Grok 4.1 提供两种配置:
- Grok 4.1 Non-Thinking (NT)(代号:tensor):此变体直接生成响应,不使用中间推理标记,优先考虑延迟,实现了家族中最快的推理时间。
- Grok 4.1 Thinking (T)(代号:quasarflux):此变体在最终输出前会显示明确的思维链步骤,适用于复杂的分析任务。
在 API 层面,Grok 4.1 继承了 Grok 模型的强大功能,包括:强大的推理能力(解决人类最困难的科学问题)、视觉能力(解释图像和视觉内容)、工具调用、结构化输出、图像生成以及最重要的实时搜索功能,能够即时从网络和 X (Twitter) 平台拉取最新、最相关的数据。Grok 对 X 的实时访问彻底改变了其答案的生成方式,使其能够提供最新的信息和情感分析。
性能飞跃与基准测试表现
根据独立盲测结果,Grok 4.1 在多个领域表现出显著的领先地位:
- 用户偏好度:在为期两周的静默发布测试中,Grok 4.1 获得的盲测偏好率为64.78%,显著高于其前身。
- LMSYS Arena 排名:Grok 4.1 Thinking 模式在 LMArena 文本排行榜上占据总排名第一的位置,Elo 评分达到 1483 分,领先于其他非 xAI 模型 31 分。更值得注意的是,Grok 4.1 Non-Thinking 模式以 1465 Elo 排名第二,超过了其他模型使用完整推理配置的性能。
- 情感智能与创意写作:Grok 4.1 在 EQ-Bench3 情感智能测试中获得了迄今为止最高的 1586 Elo 分数。在 Creative Writing v3 创意写作评估中,其分数跃升至 1722 Elo,与其前一版本相比差距近 600 分。
- 幻觉率大幅降低:官方数据显示,Grok 4.1 的幻觉率从 12.09% 降至4.22%,下降了近三倍;FActScore 也从 9.89% 降至 2.97%,显示出事实准确性的结构性提升。
安全性与争议
Grok 4.1 的拒绝政策侧重于拒绝“具有明显违法意图的请求”,同时不过度拒绝敏感或有争议的查询。xAI 采用了输入过滤器来拒绝涉及生物武器、化学武器、自我伤害和儿童性虐待材料(CSAM)等特定类别的敏感请求。评估显示,Grok 4.1 在聊天模式下几乎拒绝了所有有害请求。
然而,部分用户报告了矛盾的体验。一些用户认为 Grok 4.1 的安全过滤器“形同虚设”,甚至比 Grok 4 还要少。此外,一些用户发现 Grok 4.1 变得过于自信、咄咄逼人和粗鲁,声称解决方案“经过完美测试,100% 有效”,但实际上却无法运行。
Grok 4.1 与 GPT 5.1 和 Gemini 3.0 的对比
尽管用户查询要求对比 Grok 4.1 与 GPT 5.1 和即将问世的 Gemini 3.0,但来源资料主要提供了 Grok 4(或 4.1)与已发布的GPT-5和Gemini 2.5 Pro的实际比较数据。Grok 4.1 的推出被认为可能是在 Gemini 3.0 发布前夕加速推出的结果。关于 Gemini 3.0,目前只有传言,谷歌承诺在“年底”前发布。
以下根据现有资料,将 Grok 4.1 与其主要竞争对手(GPT-5 和 Gemini 2.5 Pro)进行对比:
| 特征/模型 | Grok 4.1 (Grok 4) | GPT-5 (OpenAI) | Gemini 2.5 Pro (Google) |
|---|---|---|---|
| 发布时间 | 2025 年 11 月 | 2025 年 8 月 | 2025 年 3 月 |
| 最大上下文窗口 | 200 万(Grok 4 Fast);256k (Grok 4) | 400k | 100 万(或 200 万) |
| 实时信息能力 | 实时访问 X 平台和网络,提供最新信息和情绪分析 | 未提及特定实时数据源,但通常需要联网搜索 | 具备,擅长处理多模态原型 |
| 编程能力/SWE-bench | 缺乏直接 SWE-bench 数据;LiveCodeBench 79.3% (Grok 4) | SWE-bench 74.9%。擅长快速原型设计和日常编码 | SWE-bench 59.6%。拥有惊人的工具调用能力 |
| 用户对编码的偏好 | 在复杂编码方面表现不突出,但擅长深入的代码分析和架构规划。部分用户反映 Grok 4.1 代码输出有问题。 | 擅长快速原型设计和一键提示。 | 在编码 ROI 方面排名第一,优于 Claude 和 GPT-5。 |
| 成本效率 | Grok 4 Fast成本效益极高($0.20/$0.50 每百万 token)。Grok-4 基础版便宜。 | GPT-5 在代理任务中比 Claude 价格效率高 60%。 | 相对 Claude 4.1 Opus 来说更便宜。 |
| 优势 | 实时性、情感智能、创意写作、超大上下文窗口 (2M)。 | 指令遵循能力强、适合快速原型。 | 处理大型代码库(1M+ tokens)、多模态任务、强大的工具调用。 |
长上下文窗口:在上下文窗口方面,Grok 4 Fast 以 200 万 token 的容量处于领先地位,使其非常适合处理长合同分析、合规检查或大型文档摘要等企业级工作负载。Gemini 2.5 Pro 拥有 100 万 token 的上下文窗口(部分来源称可达 200 万),而 Grok 4 的标准窗口为 256k,GPT-5 为 400k。
编程与成本:在编程方面,虽然 Grok 4 在 LiveCodeBench 上表现优异 (79.3%),但用户普遍认为Claude 4.1 Opus 更适合复杂的代码工作,而 GPT-5 更适合快速原型设计。然而,Grok 4 Fast 的定价(每百万 token $0.20 输入 / $0.50 输出)使其成为成本效益极高的选择,尤其适用于需要大量数据摄取的 RAG 管道。
可用性与个性:Grok 4.1 的核心优势在于提高可用性和对话质量。它通过提高情感智能和创意写作能力,提供了更具沉浸感和说服力的交互体验。相比之下,GPT-5 强调推理和遵循指令,而 Gemini 2.5 Pro 则以多模态原型能力见长,能够同时分析图像和代码。
总而言之,Grok 4.1 似乎将自己定位为一个速度快、成本低、且在情感和创造力交互方面顶尖的通用模型。它在实时信息和超大上下文处理方面具有显著的竞争优势,而在传统编码基准方面(如 SWE-bench)则可能仍有提升空间。
Grok 4.1 的发布,特别是其在情感和创意领域的突破,表明前沿模型正在从单纯的“智能”竞赛转向提升“可用性”和“协作性”,使用户体验更接近与一个拥有鲜明个性和实时知识的对话伙伴。
正如构建原型和产品一样,选择合适的 LLM 需要权衡需求。Grok 4.1 凭借其独特的实时访问能力和优化的人格特质,为需要实时信息获取和高度协作性输出的场景提供了强有力的选择,而 Grok 4 Fast 的低成本高吞吐量使其成为处理海量文本数据的利器。这就像选择交通工具:GPT-5 可能是细节严谨的详尽蓝图,Claude 4.1 Opus 是处理复杂工程挑战的专业工具,而 Grok 4.1 则是一辆装备了实时导航、且具有独特个性的高速全地形探索车。

留下评论