一周AI速览 (202510D)

本周AI进展继续聚焦于人工智能领域在模型能力、市场竞争和前沿研究方面发生的重大转变。核心趋势是通用聊天机器人的市场份额持续下降,而专注于企业级、可控且专业的AI智能体生态系统正在快速崛起,其中Anthropic 处于领先地位。同时,我们看到了基础设施的巨大投入、效率技术的突破以及针对AI伴侣和版权问题的新监管尝试 。

一、模型能力、智能体与框架创新

本周最大的亮点是Anthropic在模型和智能体能力上的突破,巩固了其在企业市场的主导地位。

1. Anthropic技能系统与专家级智能体

Anthropic 推出了名为“技能”(Skills)的新功能,旨在描述如何完成特定任务,并支持创建和管理多个技能。

  • 技术核心:技能不仅仅是 Prompt,它可以包含可执行代码(例如Python),Claude 可以在安全环境中运行这些代码。技能支持可组合性和跨工作流的部署。用户可以通过 API 创建和管理技能,或指示 Claude 自行生成所需的技能目录。
  • 企业价值:技能可以将智能体转化为特定领域的专家,例如应用于科学领域的文献综述或生物信息学分析。通过本地存储和 YAML 头部索引,技能有助于节省 Token 和成本,提高处理速度。Anthropic 已将 Claude Code SDK 重命名为Claude Agents SDK,标志着其致力于提供完整的代理技术堆栈。
  • Haiku 4.5 发布:Anthropic 还发布了其最小、最快的模型 Haiku 4.5。该模型在 SWE bench 验证基准测试中得分高于 Sonnet 4,与 GP5 相似,并优于 Gemini 2.5 Pro。由于其速度快且成本低(约为 Sonnet 的三分之一),Haiku 4.5特别适合代理工具使用和终端使用等场景

2. 智能体编排与部署

构建可投入生产的多智能体系统需要成熟的编排框架来防止无限循环。建议使用 LangGraph、Crew AI 或 Microsoft 智能体框架。在企业级部署领域,Claude 正在赢得市场竞争,领先于 OpenAI,并提供 Claude Agent SDK 和 Claude Developer Platform。

3. 视频与视觉能力提升

Google V3.1 视频生成模型进行了更新,允许用户更好地控制视频生成,包括添加音频、选择生成长度以及在纵向或横向模式之间切换。OpenAI 也发布了 Sora API,与 Google V3.1 形成竞争。此外,现在可以通过 API 向 Gemini 提供 URL,以提取 HTML 页面、PDF 或图像中的数据进行摘要或分析。

二、市场竞争与行业动态

本周的市场数据揭示了行业格局的重大变化,以及低代码热潮的消退。

1. 市场份额与盈利能力逆转

ChatGPT 的市场份额持续下降,从 2024 年初的 76% 下降到目前的约 60%。

  • Anthropic 优势:Anthropic 在企业市场占据主导地位(32%),超过 OpenAI 的 25%。在关键的编码工作负载方面,Claude 以 42% 的份额领先 OpenAI 的 21%。更值得注意的是,Anthropic每用户产生的收入是 OpenAI 的八倍(211 美元 vs. 25 美元),显示出更高的盈利能力。
  • OpenAI 财务与基础设施:尽管收入达到 43 亿美元,OpenAI 在 2025 年上半年亏损了 25 亿美元。然而,OpenAI 正在进行大规模的硬件扩张,最近与 Broadcom 和 AMD 达成协议,承诺的累计计算能力已达到约33 GW
  • 亚洲市场竞争:字节跳动(ByteDance)的 AI 助手应用豆包已成为中国最受欢迎的 AI 聊天机器人,月活跃用户超过 1.57 亿,超过了 Deepseek 的 1.43 亿用户 。

2. Vibe Coding 热潮降温

低代码(Vibe Coding)的炒作热度显著消退,多个平台的流量大幅下降(如 Vercel 暴跌 64%)。Google 推出的 AI Studio 平台 (AIGoogle/build) 允许用户直接在浏览器中构建和部署应用,成为现有低代码平台的强大竞争对手。

3. 浏览器成为新战场

浏览器已成为新的 AI 竞争领域,包括 OpenAI Atlas、Google Chrome、Microsoft Bing 和 Perplexity。OpenAI Atlas 浏览器为 Plus 和 Pro 用户提供记忆功能和跨标签页的视觉能力,并允许 AI 智能体执行订购机票等操作。

三、前沿研究与技术效率

研究界在本周发布了多项旨在提高效率和智能体自主性的突破性成果。

1. 效率与压缩技术

  • Deepseek 压缩:Deepseek 提出了一项新技术,将文本转化为图像,实现了10 倍的压缩,同时保持 97% 的准确率 。这项技术显著降低并加快了模型训练成本,有助于解决内存限制和长上下文问题 。
  • JSON 替代方案:在构建系统时,使用 Protocol Buffers 或 FlatBuffers 等 JSON 替代方案可以加速消息传递,最高可达 7 倍。

2. 迭代式自我改进智能体

Google 的 VISTA (Video Iterative Self-Improvement Agent) 采用四阶段迭代过程(规划、选择、批评和深度思考提示)进行自我改进 。IBM 开源的 Cougar 也利用迭代开发和“进化式架构优化”,通过规划和反馈使系统自我完善 。

3. 强化学习的定标艺术

Meta 等机构的研究发现,强化学习(RL)的定标定律呈现S 形曲线(Sigmoid Shape),性能提升先慢后快 。研究人员通过 40 万 GPU 小时的实验,提出了 Scale RL 配方,该配方在效率和可预测性上超越了此前的 RL 设置 。

4. 记忆与推理机制

  • 记忆即行动:“Memory as Action”框架赋予智能体一个专用的“剪枝上下文工具”,使其能够自主管理和整理长期任务中的记忆,从而显著提高多目标问答任务的完成度 。
  • 转向向量:一项研究证实了基础模型已经知晓如何推理,通过一个单独的分类器注入“转向向量”,可以在基础模型回答的特定点(如算术、回溯)展现推理行为,达到实际训练后的推理模型 50% 到 80% 的性能 。

四、政策、教育与内容监管

1. AI 伴侣监管

加州签署了SB 243 法案,使其成为美国第一个监管 AI 伴侣聊天机器人的州 。该法案将于 2026 年生效,要求平台(如 Meta、OpenAI、Character AI)进行年龄验证,保护弱势用户,并禁止非法深度伪造 。

2. “AI Slop”与版权争议

Graphite 的数据分析显示,超过 50% 的新互联网文章现在由 AI 生成(被称为“AI Slop”)。在版权方面,OpenAI 在 Sora 发布后逆转了宽松政策,开始对受版权保护的角色实行“选择加入”模式 。同时,在收到警告信后,Character.ai 移除了平台上的迪士尼角色,表明版权方对纯文本聊天内容也采取了积极的法律行动 。

3. 教育与就业趋势

大学教育的重要性正在快速下降,美国学校和大学的重要性从 75% 暴跌至 35%。雇主现在更青睐有实际经验的人,而非仅有大学学位的人。

结论

本周的更新显示,AI 市场正在从追求通用性向专业化、可控、高盈利的智能体系统转型。Anthropic 凭借其创新的“技能”系统和高效率的 Haiku 4.5 模型,已在企业市场和编码工作负载中占据领先地位,证明了专业级解决方案的价值。虽然通用聊天机器人的市场份额正在被蚕食,但 OpenAI 通过承诺高达 33 GW 的计算能力,展示了其对未来基础设施的巨大投入,尽管其仍在承受年度亏损。前沿研究则专注于效率提升(Deepseek 压缩、JSON 替代方案)和智能体自主性(VISTA、Memory as Action),为下一代 AI 系统的生产部署奠定基础 。同时,随着“AI Slop”占据互联网内容的一半,以及加州对 AI 伴侣的监管落地,政策和伦理问题正变得越来越重要 。Andre Karpathy 的引用——“我们正在召唤幽灵,而不是建造动物”——恰当地概括了这一周:AI 系统的能力正在通过编纂专业知识(技能)和迭代自我改进(VISTA)被编织成强大、可预测的“幽灵”。



留下评论