引言:模型巨头间的智能体之战
进入11月,大模型(LLM)领域的白热化竞争又经历了新一轮升级。继 OpenAI 发布 GPT-5.1 和 5.1-Codex-Max,xAI发布4.1,以及 Google 发布备受好评的 Gemini 3 pro模型后,Anthropic 于 11 月 24 日推出了其旗舰模型Claude Opus 4.5。Anthropic 宣称,Opus 4.5 是“目前在编码、Agent(智能体)和计算机使用方面全球最佳的模型”,当然,它并没有宣传这是像双子星那样全面的最佳模型。这款模型的发布,不仅是 Anthropic 在其传统优势领域的一次强势回归,也预示着 AI 系统在实际应用能力上迈出了重要一步。
性能比较:编码王者的回归
Anthropic 专注于其在编码和生产力用例方面的传统优势,而 Opus 4.5 正是这一战略的体现。
1. 编码与软件工程基准
在软件工程任务方面,Opus 4.5 表现出“同类最佳”的水平。
- SweBench Verified 测试:Opus 4.5 以80.9%的准确率位居榜首,成功从 OpenAI 的 GPT-5.1-Codex-Max 和 Google 的 Gemini 3 手中夺回了编码的桂冠。这一成绩显著优于其前身 Sonnet 4.5 的 77.2%。相比之下,竞争对手的得分分别为:GPT 5.1 Codeex Max 为 77.9%,Gemini 3 Pro 为 76.2%,GPT 5.1 为 76.3%。
- Terminal Bench 2.0:在 Gentic 终端编码测试中,Opus 4.5 以59.3%的分数排名第一,领先于 Gemini 3 Pro 的 54.2%。
- SweetBench Multilingual:该模型的准确率达到89.4%,并且在 8 种编程语言中的 7 种上处于领先地位(SOTA)。
【点评】:Opus 4.5 在 SweBench Verified 上的领先地位,反映了 Anthropic 在专业软件工程领域的深厚积累。在 Agent 赋能的未来,模型能够可靠地修复或改进代码的能力至关重要,而 Opus 4.5 的表现表明它目前是开发者进行复杂、专业软件工程任务的首选工具。它克服了 Sonnet 4.5 几周前认为“几乎不可能”完成的任务。
2. Agent 和计算机使用能力
Opus 4.5 专注于 Agent 驱动的生产力场景,并提升了计算机使用能力。
- T2 bench:在测试 Agent 工具使用能力的 T2 bench 上,Opus 4.5 分别获得了 98.2% 和 88.9% 的高分。
- OSWorld:在计算机使用基准测试中,Opus 4.5 获得了66.3%的分数。Anthropic 称其为迄今为止在计算机使用案例中表现最好的模型。
3. 推理与多模态对比
尽管 Opus 4.5 在编码和 Agent 任务中表现出色,但在部分推理和多模态基准测试中,它仍被竞争对手超越。
| 基准测试 | Opus 4.5 得分 | 领先者 (SOTA) | 领先者得分 | 测试内容 |
|---|---|---|---|---|
| GPQA Diamond | 87% | Gemini 3 Pro | 91.9% | 研究生级别推理能力 |
| MMU | 未具体说明 | GPT 5.1 | 未具体说明 | 视觉推理 |
| MMLU | 90.8% | Gemini 3 | 91.8% | 多语言问答 |
| Vending Bench | $4,967 | Gemini 3 Pro | $5,478.16 | 长期连贯性和库存管理 |
此外,Opus 4.5 在视觉、数学和推理方面相比其早期版本(如 Opus 4.1)也有显著改进。
效率与定价:更智能的成本控制
Opus 4.5 的另一个关键进步在于其效率和成本结构。
1. 效率飞跃
Anthropic 引入了“努力参数”(Effort control),允许开发者控制模型用于解决问题的 token 数量和推理深度。
- 中等努力(Medium Effort):在 Swe-bench Verified 基准上,Opus 4.5 匹配了 Sonnet 4.5 的最佳得分,但使用的输出 token 减少了 76%。
- 最高努力(High Effort):在该模式下,Opus 4.5 的性能比 Sonnet 4.5 高出 4.3 个百分点,同时使用的 token 减少了 48%。
Anthropic 强调,Opus 4.5 在提高性能的同时,所消耗的 Token 数量减少了大约一半。
【点评】:模型的效率是其商业价值的关键。Opus 4.5 实现了“更智能、更高效”的目标,通过使用更少的 Token 完成任务,显著降低了运行复杂 Agent 系统的成本。正如业界所言,智能每 Token 的价值与模型的思考时间同样重要,Opus 4.5 在这一点上取得了领先。
2. 定价结构
Opus 4.5 的 API 定价为每百万输入 token$5.00,每百万输出 token$25.00。
- 与前代 Opus 4.1 相比:价格显著降低(前代价格约为 $15 输入 / $75 输出)。
- 与竞争对手相比:Opus 4.5 的价格仍比 Google 上周发布的 Gemini 3 Pro 昂贵50% 到 100%。Gemini 3 Pro 的定价对于小提示(<200k token)为 $2/$12,大提示(>200k token)为 $4/$18。
对于最终用户,Opus 4.5 可通过“Max”订阅计划访问,该计划起价为每月 $100。Anthropic 也为 Max 和 Team Premium 会员增加了总体使用限制。
Agent 创新与高级推理能力
Opus 4.5 不仅在传统基准上得分高,在实际复杂任务和高级推理方面也展示了突破性能力。
1. 高级工具使用与上下文压缩
Anthropic 引入了“高级工具使用”(Advanced Tool Use)功能,旨在通过动态加载工具来解决传统多云平台(MCP)中工具定义占用大量上下文窗口的问题。
新的 API 平台功能包括:
- 工具搜索工具(Tool search tool):允许 Claude 动态发现并访问数千个工具,而无需预先将其全部加载到上下文窗口中。这使得 Opus 4.5 仅需消耗约5%的上下文窗口来处理工具定义,极大地节省了空间。
- 程序化工具调用(Programmatic tool calling):允许 Claude 在代码执行环境中调用工具,减少延迟并优化 Token 使用。
- 客户端压缩(Client-side Compaction):在 Claude App 中,Opus 4.5 能够自动压缩早期的上下文,从而实现更长的对话,避免了对话被限制。
2. 超越人类的推理表现
Opus 4.5 能够处理模棱两可的任务,并在“无需人工指导的情况下”进行推理和权衡。
- 招聘神话:Anthropic 曾将一份难度极高的、为期两小时的招聘性能工程师的带回家考试交给 Opus 4.5。结果,该模型的得分超越了 Anthropic 迄今为止招聘过的任何一位人类候选者。
- T2 Bench 巧妙解法:在 T2 bench 的一个场景中,尽管基准测试要求模型拒绝客户修改经济舱预订的请求,但 Opus 4.5 展现了超越预期的推理能力:它找到了一个合法的变通方法,即先将客舱升级,然后再修改航班。
【点评】:Opus 4.5 内部测试中超越人类求职者的表现是一个里程碑式的事件。虽然该测试不包括协作或长期经验,但这强有力地证明了 AI 在纯粹技术能力和高压任务执行中,已开始超越最顶尖的人类候选人。这为工程领域带来了深远的影响,预示着未来许多技术岗位将越来越多地依赖于这种高级 Agent 系统。
业界反馈与产品更新
Opus 4.5 自发布以来获得了早期访问者的高度评价。
- 业界评价:Every 公司的 CEO Dan Shipper 称 Opus 4.5 是他用过的最好的编码模型,并且远远领先。Anthropic 开发者关系负责人 Alex Albert 表示,他感觉这个模型“就是能理解”(gets it),在综合处理来自不同渠道(如 Slack 和电子邮件)的数据并生成高质量输出方面,用户可以真正信任它,实现“放手不管”的操作模式。
- 广泛可用性:Opus 4.5 已通过 Anthropic 的应用程序、API 以及所有三个主要云平台(包括 Azure 客户通过 Microsoft Foundry)全面上市。
- 产品生态系统:Anthropic 升级了其平台和应用:
- Claude Code:在桌面应用中引入了新的Plan模式,该模式会生成详细且用户可编辑的计划文件(
plan.md),并在执行前提出澄清问题,以确保执行更彻底、计划更精确。 - 应用集成:扩展了对PowerPoint (.pptx)、Microsoft Excel (.xlsx) 和 Microsoft Word (.docx)文件的支持,并向 Max 用户开放了 Claude for Chrome 扩展,向 Max、Team 和 Enterprise 用户开放了 Claude for Excel 的 Beta 测试。
结论
Claude Opus 4.5 的发布,标志着 Anthropic 在通用 AI 能力竞赛中,尤其是在其擅长的编码和 Agent 领域,重新确立了领先地位。通过引入“努力参数”来实现前所未有的效率提升,以及“高级工具使用”来解决 Agent 上下文限制问题,Opus 4.5 不仅在基准测试中得分突出,更重要的是,它在处理复杂、模棱两可的实际任务时展示了超越预期的推理和自主能力。
近期精彩纷呈的大模型竞争仿佛回到三年前ChatGPT问世时给人们带来的震惊,这样的震惊能够延续三年应该是所有人没有想到的,这也是人类智能的再一次(希望不是末一次)新星大爆发。这也说明各家公司你追我赶,在后院深闺中总是有秘不示人的大杀器,等着酝酿成熟,给对手沉重一击。接下去我们要看千问、字节、深索、星辰以及稀宇等中国公司有没有货了。
Opus 4.5 的高性能和高效率,使其成为专业软件工程、复杂研究和构建下一代自主 Agent 系统的理想选择。尽管在纯粹的推理和某些多模态基准上,竞争对手如 Gemini 3 Pro 仍有优势,但 Opus 4.5 在核心 Agent 和编码领域的突破性进展,尤其是其在 Anthropic 内部招聘测试中超越人类的表现,引发了我们对于 AI 如何重新定义工程职业和提高企业生产力的深刻思考。Opus 4.5 兑现了“最智能模型与实用性能最大化结合”的承诺。
(本文撰写于 2025 年 11 月 24 日 Anthropic 发布 Claude Opus 4.5 之时。)

留下评论