一周AI 速览202510A

爆炸性进展!AI 任务时长翻倍,新模型、新框架、新应用全面爆发

前言

欢迎来到本周的 AI 周报更新!AI 更新的速度似乎比你的咖啡凉得更快😄。本周,人工智能领域再次经历了爆炸性的进展,涵盖了从大型语言模型(LLM)的突破、新一代 AI 代理框架的推出,到硬件基础设施的巨大融资,以及对 AI 长期经济和社会影响的深刻思考。值得注意的是,AI 任务持续时间正在遵循一种“新摩尔定律”,每六到七个月就会翻倍。以下是近一周内 AI 领域的重大新闻进展,按主题分类进行详细整理。

主体内容

一、大型语言模型与基准测试

本周,模型能力继续攀升,尤其在编码和效率方面表现突出。推理成本也持续大幅下降,从 2022 年的 20 美元每百万 token 降至 2024 年 10 月的 0.07 美元,下降了 280 倍。

1. 顶级模型的能力突破
  • Anthropic Claude Sonnet 4.5:这被认为是目前最好的编码模型。它能够自主地、一步一步地完成工作,任务持续时间可达 30 小时以上。目前,该模型已被用于工作和个人用途,且运行良好。Anthropic 还推出了Cloud 4fit 新模型,该模型在金融和科学任务上表现出色。Anthropic 的 Cloud 模型客户数已从不足 0.1 万增至超 30 万,需求跨行业激增。该公司计划 2025 年将国际员工人数增长两倍,AI 团队规模扩大 5 倍,以应对业务增长。
  • GLM 4.6 (智谱 AI / Z.AI):这是一个来自中国的非常优秀的模型,其能力水平已经达到了最新的 Claude 4.5 的水平。在侧面测试中,一些人声称 GLM 更优,尽管智谱内部人员认为其在某些测试中不如 Claude,但两者非常相似。
  • GLM 4.6 的优势:它的价格极其便宜,输入/输出每百万 token 仅为 60 美分和 2 美元,相比之下 Claude 的价格分别为 3 美元和 15 美元,便宜了五倍甚至更多。它还是开放权重的(Open weights),模型尺寸小(3550 亿参数,320 亿处于活跃状态),运行速度快,且能效高。
  • K2 Think 32B (阿联酋 MBZU AI):这是一个来自阿拉伯联合酋长国的高质量 AI 推理模型。由于使用了独特的 Cerebras 巨型芯片(8.5 x 8.5 英寸),该模型运行速度非常快。它被誉为世界上参数效率最高的先进推理模型,证明了紧凑架构也能实现高效性能。
  • Quen 3 Max (阿里巴巴):这是一个商业模型,在编码和代理能力方面,它超越了顶级的西方模型,尤其在思维和 Python 使用方面表现突出。在编码排行榜上,Quen 3 Max 排名非常靠前,甚至在 Gemini 2.5 Pro 之前。阿里巴巴还发布了万亿参数级 LLM,支持图向转代码、多模态文本、视频、音频处理,标志着中国 AI 基础设施加速。
2. 效率与速度模型
  • Gemini Flash Light:这是一个新的 Gemini 模型,比以前的模型快得多。它将输出 token 减少了一半,具有低延迟特性。它在保持准确性的同时,性能优于以前的非推理版本 Gemini 2.5。它可以在 Google AI Studio 上使用,并可以利用 Google 搜索进行事实依据的支撑(grounded)。它运行在标准的 Google 硬件上,不需要 Cerebras 这样的专业硬件。
  • Deepseek 模型突破与开源:中国 AI 企业Deepseek 21 模型以低算力成本实现媲美全球顶尖模型的性能,绿序列费用仅为 OpenAI GPT-4 的 1/1。Deepseek 于 9 月 29 日发布实验性模型Deepseek V3XP(即 V3.2exp),并在生平平台完成视配部署,开放推理代码。该模型引入细粒度吸收注意力机制,提升长文本训练和推理效率,同时API 价格下调超 50%,显著降低开发者使用成本。V3.2exp 模型采用改进的稀疏注意力架构,显著降低计算成本,同时提升性能,适用于预测任务,如比特币价格或天气模式。
  • 技术与效率创新:技术突破显示,小模型参数从 540 亿降至 38 亿,即可实现类似 GPT-3.5 的性能。硬件成本降低 30%,能效年升 40%。
3. 基准与评估
  • OpenAI GDP Val:用于衡量模型在 44 种职业中,针对经济可变的现实世界任务的性能。
  • Meta GAIA Benchmark:专为通用 AI 助手设计的基准测试。
  • OpenAI 升级 GPT 推理能力:OpenAI 推出了 GPT 更新版,显著提升逻辑推理和复杂问题解决功能,支持更长的上下文处理。用户反馈显示,在数学和编程任务中准确率提高 20% 以上。
  • Google GOFEST在数学基准测试中表现出色。
  • R8AB8 的 C-Max超越 GPT-5 和 Cloud Open,支持 128 可以上上下文长城推理。
  • AI 评估实用建议:在为业务构建 AI 时,建议建立“是/否”的二元标准来评估性能,避免使用模糊的渐进分数(例如 3.2 或 3.7),以消除歧义。

二、AI 代理、自动化与工作流

本周,AI 代理功能持续增强,并开始深入物理世界和日常工作空间。AI 代理成为 2025 年焦点,IBM 调查显示 99% 的企业开发者在探索 AI 代理。

1. 编码与自动化代理
  • Claude Code 2.0:这是从终端工具升级而来的版本,现在拥有一个真正的图形用户界面(GUI),作为 Visual Studio Code 扩展运行。它现在可以与 Sonnet 4.5 协同工作,具有增强功能。
  • Claude Code 2.0 特点:它作为一个自主代理运行,具备自动检查点(保存工作)、子代理、钩子、后台任务、并行任务、更高的自主性以及多步骤规划和执行等功能。
  • Deep Agent (Abacus):这是一款一体化的桌面和命令行界面(CLI)AI 助手。它质量很高,支持 Windows、Mac、Linux,安装使用简单。它提供针对编码、脚本编写和商业任务的代理浏览工作流,并集成了顶级模型。它价格实惠。
  • Tracer AI 编码助手:这是一个在开始编码前创建详细、可执行计划的“规划层”。它确保为 AI 代理提供清晰的输入,并使用多个后台规划器和自动上下文。
  • GitHub Copilot CLI 公测版发布:GitHub 推出了 CLI (Command Line Interface) 公测版,将 AI 编程助手引入命令行界面。该工具旨在优化开发者在终端的代编写、调试和重构流程。它通过智能代理设计提升效率,支持问题分解、测试代码生成等功能。
  • Meta 开源代码世界模型 (CoWMA):Meta 发布了首个代码世界模型 CoWMA,使能模拟代码执行,提高生成代码的可靠性。该模型于 9 月 25 日开源了 320 亿参数的版本,标志着 AI 从模仿向思考能力转变,为 AI 编程能力带来新进展。
2. 物理世界代理
  • Gemini Robotics 1.5:将 AI 代理引入物理世界。这是一个视觉语言动作(VLA)模型,能够将视觉信息和指令转化为机器人的运动指令。Google DeepMind 推出的 Gemini Robotics 1.5 是首个结合推理与行动的机器人 AI 系统,可通过网络查询实时决策,例如根据天气打包物品或遵守本地回收规则。该系统支持跨机器人泛化,一次训练可适应多设备,内置安全过滤器,适用于家和工作场景,帮助机器人思考后行动。
  • Moonshot AI Computer:使用 Kim K2 模型来实现自主系统。
  • Periodic Labs:旨在创建一个“AI 科学家”,它不仅能总结科学论文信息,还能在物理世界中操作、设置实验、分析结果。该项目配备了物理实验室,以加速科学发现。
  • 英飞凌推崇物理 AI:英飞凌 CEO 约亨·哈内贝克表示,物理 AI 如人形机器人是增长机遇。机器人所需的半导体数量堪比汽车。
  • 国内人形机器人训练场启用:北京石景山区启用了国内最大的人形机器人训练场,占地超万平方米,模拟 16 种生产场景,助力机器人提前适应真实场景。
  • Meta 推出物理世界交互模型:Meta 发布了一款新型模型,专注于提升对物理环境的理解和操作能力,适用于机器人和自动驾驶系统。
  • AI 科学家系统生成同行评审论文:一款 AI 系统从假设到实验分析和撰写全程完整论文,已通过初步同行评审,标志着科研自动化里程碑。
  • Agility Robotics训练人形机器人全身控制模型。
  • 谷歌 DeepMind构建多机器人规划 AI。
3. 企业级框架与应用
  • Microsoft 统一代理框架(MUAF):微软宣布退役 Autogen 和 Semantic Kernel,取而代之的是这一新系统。MUAF 专注于开发、部署、可观察性、安全功能以及企业客户的任务遵循性。它与 Azure 云和 Azure AI Foundry 进行了深度集成。
  • 微软 Copilot 代理:微软 Copilot 代理可自助处理任务,如邮件管理和会议笔记,预计代理将从工具转向自主助手。
  • Microsoft Office 集成 AI 代理:Word 和 Excel 中新增 Copilot 代理模式,支持自动化文档和表格生成。Microsoft 安全 CIL T 扩展 11 个自主安全代理,处理每年 300 亿警报。
  • 滴滴出行助手小 D beta v0.8 公测:滴滴出行推出了 AI 出型助手小 D beta v0,支持语音和文字输入。同步上线的MCP 服务允许开发者为智能体配置自主规划、打车和支付功能,标志着 AI 在出行领域的开放生态应用。
  • 京东物流发布超脑大模型 2.0:该模型具备千万级变量求解能力,已在多个智能源区常态化运行,形成了云端智能、终端执行的闭环。
  • 谷歌发布论文探讨虚拟代理经济:谷歌发布论文,预测 AI 代理经济体将与现实经济深度融合,交易速度远超人类,引发潜在风险讨论。
  • NVIDIA 提出小型语言模型 (SLM) 代理框架:该框架概述了 SLM 代理如何在效率上超越大型模型 LLM,适用于边缘计算和实时任务,可能重塑 2025 年 AI 代理生态。

三、内容生成:视频、图像与应用工具

生成模型正在向更高的保真度和更广泛的应用扩展。

  • Open Sora 2:采用邀请制,仅对少数用户(如每月 200 美元的 GPT Pro 用户)开放。它能生成逼真的、长达一分钟的视频。Sora.com 上的视频内容模仿了 TikTok 模式,生成大量的短视频。该模型实施了强大的水印,并对涉及真实人物的使用有严格规定(需要提供身份确认文件)。OpenAI 计划发布的 Sora 新版 支持生成更高质量的 AI 视频,以及包含版权材料的视频,但版权持有人可选择退出。
  • Open Sora APP允许创建个性化数字头像和视频。
  • Meta Vibes:Meta 通过 Meta AI 应用和网站推出的新功能。它旨在发现和创建用于 Instagram 的 AI 视频。用户可以浏览、创建和混音短格式 AI 生成的视频,“Vibes”信息流完全由生成的片段填充。它类似于 TikTok。Meta 发布了VIBES 平台,允许用户创建和分享 AI 生成的短视频。
  • Kling AI 2.5 Turbo:来自中国的商业文本到视频模型。在运动流畅性、提示遵循度、场景主义和美学精度方面有所增强。它速度快且实用。
  • 阿里巴巴 1 2.2 to Animate (通义实验室):这是一个开源的 AI 视频生成和角色动画模型。用户可以对任何静态角色图像进行动画处理,并使用从参考视频中提取的动作和面部表情替换现有视频中的角色(基本上可以制作卡通片)。
  • Quen Image Edit 2.5.9:开放权重(Open weights)。具备多图像编辑和单图像一致性功能。
  • Stability AI 新图像生成模型:该模型处理速度提升 30%,真实度更高,针对创意产业优化,支持自定义、风格迁移。

四、基础设施、API 与商业新星

AI 服务的门槛持续降低,出现了一批高估值的新兴企业。全球 AI 投资持续升温,IDC 预测2024 年全球 AI 投资将达到 3159 亿美元预计到 2029 年将增至 1.26 万亿美元。生成式 AI 投资增长最为迅猛。

  • Perplexity 搜索 API:使搜索实现变得极其简单。它提供对数百亿网页的访问,中位延迟仅为 0.4 秒(非常快)。它结合了关键词和语义搜索,为 AI 代理提供 AI 驱动的结构化输出。它非常便宜(每千次搜索结果 5 美元),并且不使用用户数据进行模型训练。
  • Genpark AI Workspace:这是一个通用的桌面工作应用程序。它由提示驱动,可以创建和编辑各种文档、幻灯片、表格、图表、图像和视频。该公司在短短 45 天内就达到了 3600 万美元的年度订阅收入,是 AI 从简单聊天转向大规模现实世界自动化的领先案例。
  • Tinker API (Thinking Machines Lab):由前 OpenAI 首席技术官 Mira Murati 创立的公司推出。这是一个用于微调大型模型的分布式系统。
  • RAG 模块化:RAG(检索增强生成)系统正在变得越来越容易使用。现在有许多 Python 模块可以直接通过pip install rag进行安装和使用,例如rag chainrag lightflash ragdev和 Meta GPT 的 RAG。
  • Anything (Text-to-App Startup):一家旧金山初创公司,提供从数据库到存储和支付功能的所有工具。该公司在两周内年化收入达到 200 万美元,获得了爆炸性的市场关注。
  • Dust AI:这是一家 AI 咨询平台。它通过融资获得了 1.75 亿美元,估值达到 18 亿美元。
  • Cerebras 的资金与发展:生产巨型 AI 芯片的 Cerebras 公司已融资 11 亿美元,估值达到 81 亿美元。
  • 投资与基础设施动态花旗银行上调 AI 支出预测,科技巨头 AI 基础设施支出预计到 2029 年超2.8 万亿美元,较此前预测增加 5000 亿。美国占比 1.4 万亿。全球 AI 算力需求需新增55 吉瓦电力容量,凸显 hyperscalers 如亚马逊、微软的激进投资。
  • NVIDIA 投资与合作:NVIDIA 报告称是 AI 应用推动芯片需求增长 40%,2025 年资本支出预计达 850 亿美元。NVIDIA 宣布向 OpenAI 投资高达1000 亿美元,提供 1GW GPU 算力资源。
  • OpenAI 股份出售估值达 5000 亿美元。OpenAI、Oracle、Softbank 启动Stargate 项目,合作在美国建设五大数字中心,旨在超大规模训练和部署 AI 模型。
  • Meta AI 融资:Meta AI 完成 5 亿美元融资,用于推进大语言模型和开源工具研发。该公司估值已超 100 亿美元。
  • Databricks 整合 OpenAI GPT-5:Databricks 与 OpenAI 合作,引入 GPT-5 和 Agent Break 模块,支持 AI 驱动的实时数据分析。
  • AI 硬件高投入困境:AI 行业面临烧钱挑战,微软等巨头投资数千亿美元,阿里巴巴投入约 3800 亿元。NVIDIA H200 显卡价格在 20 万至 80 万元之间。
  • 存储产品价格上涨:DDR4、DDR5 及 NAND Flash 价格持续上涨,DDR4 价格较年初翻倍,部分现货涨幅超五倍。AI 需求推动存储原厂将产能转向 HBM 和 DDR5。
  • 企业工具创新:Snowflake 推出 Ctex AI 融合服务版。Digital Lotion 增强 Gradient AI 平台。HP 发布 ZGX Nano Gen AI 工作站。

五、行业趋势与技术洞察

本周的讨论也触及了长期趋势、技术选择和哲学思考。

1. 软件架构与语言趋势
  • Rust 取代 Python 的趋势:尽管目前生产 AI 推理主要通过 Python 和 CUDA 库进行,但Rust 正在成为生产、实时推理和边缘 AI 的有力替代品。Rust 库因其并发性、效率和更简单的部署,在某些方面已超越 Python。苹果公司正在使用类似于 Rust 的语言重写 iOS 的关键部分,以提高安全性和性能。
  • Stone MQ:这是一个用 Rust 编写的开源消息传递系统。它比基于 Java 的 Kafka 快 6 倍,便宜 70%,并且与 Kafka 兼容。
  • 单体 vs. 微服务:基于 Netflix 的经验分析,分布式微服务架构并非总是最优选择。单体系统可以提供更高的可扩展性和操作简便性,而微服务则面临网络税和分布式系统调试难度更大的问题。
2. AI 基础认知与挑战
  • LLMs 终结论:强化学习之父 Richard Sutton 认为 LLM 是一个死胡同。他认为 LLM 只是模仿人类的言语,而不是学习世界中实际发生的事情。他主张未来应该是基于经验学习的模型,而不是基于预训练的“统计学鹦鹉”。他相信学习系统将从像婴儿一样通过试错学习经验中成长。
  • 幻觉检测:一项研究通过使用“熵电路追踪”和“跨层转码器”,在 RAG 系统中检测幻觉的准确率达到了 85%。这项工作能够确定数据是幻觉产生的,还是确实来自数据源。
  • Deepmind 蛋白质突破:Deepmind 宣布 AI 驱动的蛋白质折叠新进展,可加速药物发现,潜在缩短新药研发周期至数月。
  • Meta 的 AI 工具用于材料科学:Meta 推出了生成式 AI 工具,用于发明量子和半导体新材料。
3. 社会、经济与普及
  • AI 快速发展与普及速度:尽管 AI 技术进步迅速,但现实世界的物理限制和制造约束会减缓其普及速度。例如,经过 17 年,特斯拉仅占美国乘用车总量的 4%;自动驾驶出租车在美国仅有 1,500 辆,少于纽约市出租车总量的 1%;自动驾驶半挂卡车只有 400 辆,不到美国卡车总量的 0.01%。这表明完全渗透尚需多年。
  • AI 经济影响:Ilya Sutskever 曾提出的观点被其著作再次强调。他认为传统的经济结构将在三年内过时,并警告如果 AI 利益分配不当,可能会产生永久的“底层阶级”。他提议建立一种“效益证明”加密货币,其收益用于资助有益的 AI 研究,并提倡普及 AI 访问权限和开源模型。
  • Grog 4 面向政府:El Musk 的 XAI 以极低的价格(1.5 年内每个部门 42 美分)向美国联邦机构提供 Grog 4。
  • AI 投资回报难题:全球95% 的 AI 项目未能产生可量化回报。原因包括 AI 缺乏情境化学习能力、流程僵化及与日常运营脱节。
  • AI 在就业与生产力中的作用:PwC 报告显示,AI 行业员工收入增长三倍,AI 暴露度高的行业员工收入增长率达四倍。2025 年将有 9700 万人从事相关工作。
  • 政策、伦理与全球视角:联合国于 9 月 25 日启动 AI 治理全球对话机制。诺贝尔奖得主呼吁全球协议,禁止 AI 用于自主武器和生物识别监控。加州签署了美国最严格的 AI 监管法案。

六、新增:产品与生态系统动态

本周在用户产品和生态系统建设方面也有显著进展。

OpenAI 新增功能: 

  • 个性化资讯功能:通过分析用户聊天记录、邮箱和日历数据提供个性化资讯,标志着 AI 从被动响应向主动推送转型。
  • 及时结账功能:支持美国用户通过 Stripe 在 S 平台直接购物支付。此举推动 SC 股价上涨超 14%,Shopify 涨超 6%。
  • 家长控制:新增针对青少年的控制功能,增强隐私保护。

巨头战略聚焦

  • 苹果:正在开发一款内部代号为 “VAS” 的类 ChatGPT 应用,用于测试预计 2026 年 3 月推出的新版 Siri 技术。苹果此举旨在应对竞争对手在 AI 助手领域的领先优势。
  • 华为:任命余承东为产品投资评审委员会 (IRB) 主任,负责推动 AI 芯片、大模型及智能汽车领域的突破。
  • FDA:美国食品药品监督管理局推出了自家 AI 助手,用于简化监管流程。
  • 亚马逊:升级 Alexa 家居设备,推出 Ofir TV 和 Blink 设备的 AI 增强版。谷歌 Dina Home App 实现自然语言智能家居自动化。

结论

本周的 AI 新闻再次证明了该领域的指数级增长速度。从 Claude Sonnet 4.5 创纪录的 30 小时自主任务时长,到 GLM 4.6 提供的价格和性能的完美结合,再到各种 AI 代理(如 Claude Code 2.0 和 Deep Agent)向真正的自动化桌面工作流迈进,AI 的影响力正在从代码库迅速扩展到日常的企业和个人应用中。

基础设施和投资达到前所未有的规模:花旗银行上调了 2029 年 AI 基础设施支出预测至 2.8 万亿美元,以及 Cerebras 等芯片制造商获得的巨额融资,表明计算能力已成为 AI 竞争的核心。尽管像 Richard Sutton 这样的专家对现有 LLM 的长期潜力提出了质疑,并警告了物理世界的普及速度限制,但基础设施和企业应用(MUAF、Genpark)的成熟化,以及 SLM 代理框架的提出,预示着 AI 正快速从研究阶段转向大规模的、改变行业格局的实用阶段。



留下评论