Anthropic 重夺桂冠：Claude Opus 4.5 在编码和 Agent 领域实现效率与智能的飞跃

引言：模型巨头间的智能体之战

进入11月，大模型（LLM）领域的白热化竞争又经历了新一轮升级。继 OpenAI 发布 GPT-5.1 和 5.1-Codex-Max，xAI发布4.1，以及 Google 发布备受好评的 Gemini 3 pro模型后，Anthropic 于 11 月 24 日推出了其旗舰模型Claude Opus 4.5。Anthropic 宣称，Opus 4.5 是“目前在编码、Agent（智能体）和计算机使用方面全球最佳的模型”，当然，它并没有宣传这是像双子星那样全面的最佳模型。这款模型的发布，不仅是 Anthropic 在其传统优势领域的一次强势回归，也预示着 AI 系统在实际应用能力上迈出了重要一步。

性能比较：编码王者的回归

Anthropic 专注于其在编码和生产力用例方面的传统优势，而 Opus 4.5 正是这一战略的体现。

1. 编码与软件工程基准

在软件工程任务方面，Opus 4.5 表现出“同类最佳”的水平。

SweBench Verified 测试：Opus 4.5 以80.9%的准确率位居榜首，成功从 OpenAI 的 GPT-5.1-Codex-Max 和 Google 的 Gemini 3 手中夺回了编码的桂冠。这一成绩显著优于其前身 Sonnet 4.5 的 77.2%。相比之下，竞争对手的得分分别为：GPT 5.1 Codeex Max 为 77.9%，Gemini 3 Pro 为 76.2%，GPT 5.1 为 76.3%。
Terminal Bench 2.0：在 Gentic 终端编码测试中，Opus 4.5 以59.3%的分数排名第一，领先于 Gemini 3 Pro 的 54.2%。
SweetBench Multilingual：该模型的准确率达到89.4%，并且在 8 种编程语言中的 7 种上处于领先地位（SOTA）。

【点评】：Opus 4.5 在 SweBench Verified 上的领先地位，反映了 Anthropic 在专业软件工程领域的深厚积累。在 Agent 赋能的未来，模型能够可靠地修复或改进代码的能力至关重要，而 Opus 4.5 的表现表明它目前是开发者进行复杂、专业软件工程任务的首选工具。它克服了 Sonnet 4.5 几周前认为“几乎不可能”完成的任务。

2. Agent 和计算机使用能力

Opus 4.5 专注于 Agent 驱动的生产力场景，并提升了计算机使用能力。

T2 bench：在测试 Agent 工具使用能力的 T2 bench 上，Opus 4.5 分别获得了 98.2% 和 88.9% 的高分。
OSWorld：在计算机使用基准测试中，Opus 4.5 获得了66.3%的分数。Anthropic 称其为迄今为止在计算机使用案例中表现最好的模型。

3. 推理与多模态对比

尽管 Opus 4.5 在编码和 Agent 任务中表现出色，但在部分推理和多模态基准测试中，它仍被竞争对手超越。

基准测试	Opus 4.5 得分	领先者 (SOTA)	领先者得分	测试内容
GPQA Diamond	87%	Gemini 3 Pro	91.9%	研究生级别推理能力
MMU	未具体说明	GPT 5.1	未具体说明	视觉推理
MMLU	90.8%	Gemini 3	91.8%	多语言问答
Vending Bench	$4,967	Gemini 3 Pro	$5,478.16	长期连贯性和库存管理

此外，Opus 4.5 在视觉、数学和推理方面相比其早期版本（如 Opus 4.1）也有显著改进。

效率与定价：更智能的成本控制

Opus 4.5 的另一个关键进步在于其效率和成本结构。

1. 效率飞跃

Anthropic 引入了“努力参数”（Effort control），允许开发者控制模型用于解决问题的 token 数量和推理深度。

中等努力（Medium Effort）：在 Swe-bench Verified 基准上，Opus 4.5 匹配了 Sonnet 4.5 的最佳得分，但使用的输出 token 减少了 76%。
最高努力（High Effort）：在该模式下，Opus 4.5 的性能比 Sonnet 4.5 高出 4.3 个百分点，同时使用的 token 减少了 48%。

Anthropic 强调，Opus 4.5 在提高性能的同时，所消耗的 Token 数量减少了大约一半。

【点评】：模型的效率是其商业价值的关键。Opus 4.5 实现了“更智能、更高效”的目标，通过使用更少的 Token 完成任务，显著降低了运行复杂 Agent 系统的成本。正如业界所言，智能每 Token 的价值与模型的思考时间同样重要，Opus 4.5 在这一点上取得了领先。

2. 定价结构

Opus 4.5 的 API 定价为每百万输入 token$5.00，每百万输出 token$25.00。

与前代 Opus 4.1 相比：价格显著降低（前代价格约为 $15 输入 / $75 输出）。
与竞争对手相比：Opus 4.5 的价格仍比 Google 上周发布的 Gemini 3 Pro 昂贵50% 到 100%。Gemini 3 Pro 的定价对于小提示（<200k token）为 $2/$12，大提示（>200k token）为 $4/$18。

对于最终用户，Opus 4.5 可通过“Max”订阅计划访问，该计划起价为每月 $100。Anthropic 也为 Max 和 Team Premium 会员增加了总体使用限制。

Agent 创新与高级推理能力

Opus 4.5 不仅在传统基准上得分高，在实际复杂任务和高级推理方面也展示了突破性能力。

1. 高级工具使用与上下文压缩

Anthropic 引入了“高级工具使用”（Advanced Tool Use）功能，旨在通过动态加载工具来解决传统多云平台（MCP）中工具定义占用大量上下文窗口的问题。

新的 API 平台功能包括：

工具搜索工具（Tool search tool）：允许 Claude 动态发现并访问数千个工具，而无需预先将其全部加载到上下文窗口中。这使得 Opus 4.5 仅需消耗约5%的上下文窗口来处理工具定义，极大地节省了空间。
程序化工具调用（Programmatic tool calling）：允许 Claude 在代码执行环境中调用工具，减少延迟并优化 Token 使用。
客户端压缩（Client-side Compaction）：在 Claude App 中，Opus 4.5 能够自动压缩早期的上下文，从而实现更长的对话，避免了对话被限制。

2. 超越人类的推理表现

Opus 4.5 能够处理模棱两可的任务，并在“无需人工指导的情况下”进行推理和权衡。

招聘神话：Anthropic 曾将一份难度极高的、为期两小时的招聘性能工程师的带回家考试交给 Opus 4.5。结果，该模型的得分超越了 Anthropic 迄今为止招聘过的任何一位人类候选者。
T2 Bench 巧妙解法：在 T2 bench 的一个场景中，尽管基准测试要求模型拒绝客户修改经济舱预订的请求，但 Opus 4.5 展现了超越预期的推理能力：它找到了一个合法的变通方法，即先将客舱升级，然后再修改航班。

【点评】：Opus 4.5 内部测试中超越人类求职者的表现是一个里程碑式的事件。虽然该测试不包括协作或长期经验，但这强有力地证明了 AI 在纯粹技术能力和高压任务执行中，已开始超越最顶尖的人类候选人。这为工程领域带来了深远的影响，预示着未来许多技术岗位将越来越多地依赖于这种高级 Agent 系统。

业界反馈与产品更新

Opus 4.5 自发布以来获得了早期访问者的高度评价。

业界评价：Every 公司的 CEO Dan Shipper 称 Opus 4.5 是他用过的最好的编码模型，并且远远领先。Anthropic 开发者关系负责人 Alex Albert 表示，他感觉这个模型“就是能理解”（gets it），在综合处理来自不同渠道（如 Slack 和电子邮件）的数据并生成高质量输出方面，用户可以真正信任它，实现“放手不管”的操作模式。
广泛可用性：Opus 4.5 已通过 Anthropic 的应用程序、API 以及所有三个主要云平台（包括 Azure 客户通过 Microsoft Foundry）全面上市。
产品生态系统：Anthropic 升级了其平台和应用：

Claude Code：在桌面应用中引入了新的Plan模式，该模式会生成详细且用户可编辑的计划文件（plan.md），并在执行前提出澄清问题，以确保执行更彻底、计划更精确。
应用集成：扩展了对PowerPoint (.pptx)、Microsoft Excel (.xlsx) 和 Microsoft Word (.docx)文件的支持，并向 Max 用户开放了 Claude for Chrome 扩展，向 Max、Team 和 Enterprise 用户开放了 Claude for Excel 的 Beta 测试。

结论

Claude Opus 4.5 的发布，标志着 Anthropic 在通用 AI 能力竞赛中，尤其是在其擅长的编码和 Agent 领域，重新确立了领先地位。通过引入“努力参数”来实现前所未有的效率提升，以及“高级工具使用”来解决 Agent 上下文限制问题，Opus 4.5 不仅在基准测试中得分突出，更重要的是，它在处理复杂、模棱两可的实际任务时展示了超越预期的推理和自主能力。

近期精彩纷呈的大模型竞争仿佛回到三年前ChatGPT问世时给人们带来的震惊，这样的震惊能够延续三年应该是所有人没有想到的，这也是人类智能的再一次（希望不是末一次）新星大爆发。这也说明各家公司你追我赶，在后院深闺中总是有秘不示人的大杀器，等着酝酿成熟，给对手沉重一击。接下去我们要看千问、字节、深索、星辰以及稀宇等中国公司有没有货了。

Opus 4.5 的高性能和高效率，使其成为专业软件工程、复杂研究和构建下一代自主 Agent 系统的理想选择。尽管在纯粹的推理和某些多模态基准上，竞争对手如 Gemini 3 Pro 仍有优势，但 Opus 4.5 在核心 Agent 和编码领域的突破性进展，尤其是其在 Anthropic 内部招聘测试中超越人类的表现，引发了我们对于 AI 如何重新定义工程职业和提高企业生产力的深刻思考。Opus 4.5 兑现了“最智能模型与实用性能最大化结合”的承诺。

（本文撰写于 2025 年 11 月 24 日 Anthropic 发布 Claude Opus 4.5 之时。）

Let's Make AGI Real

留下评论取消回复