一周AI速览（202512A）

硅基时代的决战：IQ与EQ双向升级，巨头重塑AI新边界

前言

刚刚过去的一周，生成式人工智能领域决战频仍，卷土重来，硝烟四起，“AI战国”持续，群雄逐鹿，直奔AGI。全球顶尖科技公司仿佛心有灵犀，在相近的时间点集中发布了重大更新，其战略核心除了智商（IQ）持续突破天花板，情商（EQ）的升级是一个新的亮点，同时AI深度融入日常工作流，并在多模态内容创作上实现了颠覆性的突破。本周的进展不再是性能的简单堆叠，而是对AI核心能力的重新定义，推动AI从一个工具迈向一个拥有深度思考能力、情感感知和高生产力的伙伴角色。

一、核心智能：深度推理（Deep Think）与巨头战略对垒

本周的竞争集中在提升模型的复杂任务处理能力，即推理（Reasoning）能力。推理模型的使用率在本周出现了显著增长，在总使用量中的占比已从 0% 跃升至超过50%。

1. 闭源巨头的攻防战

面对日益激烈的竞争和增长放缓的挑战，头部企业采取了激进的战略调整：

OpenAI 的“红色代码”与情智升级：为重夺排行榜领先地位，OpenAI 采取了“红色代码”（Code Red）行动，暂停了部分项目，集中精力提升核心模型的质量和用户体验，以解决持续高额的现金消耗问题。在模型能力方面，OpenAI采取了IQ和EQ双管齐下的策略。

IQ 方面，他们为所有模型导入了“思考链”（Chain of Thought）和Think 模式，这意味着AI在遇到难题时会先停下来，一步一步拆解问题，而不是立即给出答案，支持动态推理深度。
EQ 方面，模型增强了记忆力和情绪感知的能力，用户甚至可以设定AI的个性和风格，使其成为懂得深度思考的万能特助和有同理心的对话伙伴。

Google 的深度进驻：Google的策略是将 AI深深融入日常工作，让AI代理人直接在用户的 Gmail 和云端硬盘里“上班”。用户现在可以尝试启用 Google 的深度思考模式。其Gemini 3 Pro是文本处理和推理的主要竞争者，Gemini 2.5 Pro和2.5 Flash在排行榜上也名列前茅。此外，Google 的 IMAG 4 模型已集成到 Google Workspace 中，支持视频生成。

2. 专业化模型与开源挑战

专业模型在特定领域展现出超越通用模型的能力，而开源项目则通过效率和成本向闭源巨头发起挑战：

Deepseek 的数学奇迹：Deepseek Mathv2专注于数学推理，达到了国际数学奥林匹克竞赛金牌水平，在某些基准测试中超越了 Gemini Deep Think，准确率高达99%。其旗舰模型训练成本仅为557万美元，凸显了极高的成本效益。
开源巨擘 Mistral：Mistral 推出了 Apache 许可的开源模型，包括大型的 6750 亿参数混合专家模型，在编码方面表现出色。他们还发布了适用于边缘设备的小型密集多模态模型，运行仅需 4GB 内存。
Grok 的市场表现：XAI 的Grok code fast在 Open Router上是目前最受欢迎的推理模型。最新的Grok 4.2在一项AI交易竞赛中表现优异，获得了12%的回报。

二、编码与代理：软件工程的自动化革命

本周的另一大焦点是AI代理系统的成熟和对软件工程流程的颠覆。编程被确认为推动 Prompt token 增长的主要驱动力。

Anthropic 的编码优势

Anthropic 在编码领域取得了令人瞩目的成就：

性能超越人类：Claude Opus 4.5的编码准确率高达99.9%。在内部工程测试中，该模型在软件工程任务上超越了所有人类候选人，堪称里程碑式进步。
效率革命：为了解决多上下文处理（MCP）的扩展问题，Anthropic推出了工具搜索工具和程序化工具调用，前者将token使用量减少了 85%，后者通过允许Claude编写 Python 代码来协调多次工具调用，将token减少了 37%，同时提高了准确性。Anthropic收购高性能JavaScript运行时Bun，旨在进一步提高编码效率。

2. 代理生态系统的发展

AI 代理正变得更加专业化和自动化：

自动化工作流：Tracer YOLO 模式作为一种管理框架，能够自动将编码任务分解，然后交给选定的AI编码代理（如 Claude Code），并持续运行直到完成。
企业集成：Gen SparkAI工作空间在六个月内估值达到 10 亿美元，该平台致力于协调超过 30 个模型（如 GPT、Claude、Gemini），并在单个平台中完成复杂工作。Amazon Bedrock Agent Core 也进行了升级，增强了情景记忆和策略控制。

三、多模态突破：从工具到艺术家的进化

视频和 3D 内容的生成能力在本周达到了新的高度，模型已从一个有趣的小工具进化为可以用于商业制作的专业艺术家。

1. 视频生成：电影级与同步音画

Runway Gen-4.5 的物理模拟：Gen-4.5 解决了AI影片的最大痛点——真实感和物理逻辑崩坏。它在物理模拟方面有了很大突破，物体的移动有了重量感，细节如头发和皮肤的纹理也更连贯。这使其成为一个真正可以用于商业制作的超强工具。
Kling 2.6 的全能导播：来自快手的Kling 2.6最大的亮点是音画同步。只需输入一行文字，它就能生成带有完全同步音频（包括对话、音效）的完整短片，其速度比竞争对手更快且成本更低。这彻底改变了内容创作流程，对于短影音创作者来说是一场生产力的大革命。

2. 3D 与视觉应用

3D 快速构建：Wlabs推出的Marble 3D可以在 10 分钟内从文本或图像生成可编辑的 3D 世界。Tencent N3D Studio 1.1也推出了支持 4K 分辨率的专业级文本到 3D 生成工具。
文档理解：腾讯的紧凑型Han OCR模型（参数仅 10 亿）在文档理解任务中击败了许多大型视觉语言模型，并支持 100 多种语言。

结语

本周的进展清晰地展示了AI领域的演变方向：即从追求规模（Scaling）到追求效率、专业化和情智深度。正如行业领导者所承认的，仅仅扩大规模不足以实现真正的通用人工智能（AGI），AGI 需要由持续学习和适应性来定义。在这场由性能、成本、和战略大胆构成的激烈竞争中，消费者无疑是最大的受益者。我们现在拥有了：OpenAI（高情商、懂深度思考的万能特助）、Google（主动积极、进驻办公环境的专员）、Runway（追求极致视觉效果的好莱坞摄影师）和Kling（声音画面一次搞定的全能型导播）。因此，我们不仅应该关注这些技术突破，更应该积极行动起来，亲自体验 GPT 的个性化设定或 Google 的深度思考模式，并学习如何写出有效的影片提示词，因为这绝对是未来一年的关键技能。

Let's Make AGI Real

留下评论取消回复