一周AI速览202509C

本周AI领域不出意外地没啥意外，继续爆发意想不到的新闻，充满了令人振奋的进展。涵盖模型与技术突破、应用与产品更新、行业动态与硬件发布等多个方面。从OpenAI的GPT-5在顶级编程竞赛中碾压人类，到苹果发布自带实时翻译功能的AirPods Pro 3，再到Claude解锁直接编辑Office全家桶的新技能，每一个消息在三五年前都可以进年度十大，而今技术突破、产品落地、资本涌动，已成家常便饭，让人迟钝。AI正以前所未有的速度渗透到我们工作和生活的方方面面。

模型与技术突破

本周，多家顶尖机构发布了性能卓越的新模型，并在核心技术上取得了重要突破。

OpenAI:

编程能力达到“超人”水平：一个包含GPT-5的通用推理模型组合，在顶级的国际大学生程序设计竞赛（ICPC）中，解决了全部12个问题，实时击败了所有人类参赛队伍，获得了第一名。这证明了其强大的核心智能。
“幻觉率”显著降低：通过改进训练方式，鼓励模型在不确定时回答“我不知道”，GPT-5推理模型的幻觉率已降至1.5%，远低于几年前GPT-3.5的40%。

阿里巴巴/通义实验室:

发布Deep Research智能体：通义实验室推出了完全开源的网络智能体“通义Deep Research”，该模型以30亿的激活参数（总参数300亿）在深度研究任务上取得了与OpenAI等顶尖模型相媲美的性能。其核心是一种新颖的自动化数据策略，可在无需昂贵人工标注的情况下创建高质量训练数据。
Qwen模型实现重大效率提升：Qwen Next ADB 3B模型通过采用门控注意力和稀疏全连接层技术，在800亿总参数中每次仅激活30亿，实现了10倍的推理速度提升和10倍的训练成本降低。

Meta:

优化RAG技术：Meta的超级智能实验室通过一种名为“refrag”的新方法，将检索增强生成（RAG）的速度提升了30倍，同时能在不损失准确性的情况下处理长16倍的上下文。
发布小型移动端模型LLM R1：Meta推出了一系列参数量不足10亿的开源小模型，这些模型在同等规模中具有很高的准确性，性能可媲美甚至超越Qwen 3。

谷歌 (Google):

Gemini 3.0 Ultra或将发布：开发者在谷歌的代码库中发现了对“Gemini 3.0 Ultra”的引用，预示着新一代大模型可能即将发布。
发布差分隐私模型Vault Gemma：为解决数据隐私问题，谷歌推出了Vault Gemma模型，该模型通过在预训练阶段注入“噪声”来保护个人信息，同时保持了与同类非隐私模型相当的性能。
Embedding Gemma开源模型：谷歌还发布了一款专为设备端运行而设计的小型开源模型Embedding Gemma。

Grok (xAI):

Grok 5即将开始训练：埃隆·马斯克透露，Grok 5的训练将在几周内开始。
推出代码模型Grok Code Fast 1：发布了特点为速度快、成本低的代码专用模型，但目前开发者普遍认为Opus 4.1和ChatGPT 4.03 Pro在代码生成方面表现更佳。

杨百翰大学 (BYU):

发布新推理模型Ernie X1.1：该模型在事实性、指令遵循和智能体能力方面表现出色，性能可与GPT-5和Gemini 2.5 Pro等顶级模型媲美，并在准确性和低幻觉率方面优于许多其他模型。

应用与产品更新

AI技术正在加速落地，从办公效率到日常生活，各类应用与产品不断推陈出新。

谷歌 (Google) / YouTube:

推出智能体支付协议（AP2）：继智能体间通信协议后，谷歌又发布了智能体支付协议（AP2），允许AI智能体之间或与商家进行安全合规的交易，目前已有超过60家大型公司成为其合作伙伴。
Notebook LM增强音频概览功能：谷歌的Notebook LM为其音频概览功能增加了“辩论”等新模式，可让两个AI就用户提供的内容生成类似播客的辩论音频。
Waymo自动驾驶出租车进驻旧金山机场：旧金山国际机场已批准Waymo自动驾驶汽车在机场提供服务，并将分阶段推行。
YouTube推出AI生成Shorts及多语言配音功能：YouTube向创作者推出了利用AI生成短视频（Shorts）的功能，但也引发了内容质量的担忧。同时，平台还上线了AI自动为视频生成多种语言配音的新功能。

OpenAI:

ChatGPT推出多项功能更新：向免费用户开放了类似文件夹的“项目”功能；新增了“仅项目记忆”选项以避免信息混淆；并推出了“对话分支”功能，方便用户从特定语境继续探索。

Meta:

发布新一代AI智能眼镜：在Meta Connect大会上展示了第二代Ray-Ban Meta智能眼镜，用户可通过一个能感知肌肉信号的腕带进行控制。泄露的演示视频还展示了未来形态，AI能通过眼镜看到外部世界，并将信息投射到用户可见的透明屏幕上。

亚马逊 (Amazon):

推出AI驱动的IDE – Kiro：发布了基于VS Code的AI集成开发环境Kiro，强调通过对话生成需求文档的“规范驱动开发”工作流。
推出Amazon Lens Live功能：用户可通过亚马逊App扫描现实物品，应用会识别该物品并在商城中找到它或相似商品。

Anthropic:

Claude推出强大的文件创建与编辑功能：Claude模型现在可以直接创建和编辑Excel、Word、PowerPoint和PDF文件，例如根据指令将PDF转换成PPT，或抓取数据生成Excel表格。此功能目前仅向付费计划用户开放。

字节跳动:

发布图像编辑模型Seedream 4.0：推出了与Nano Banana功能类似的图像编辑模型，用户可上传图片并用文字指令修改内容，但可能会扭曲人脸细节。

行业动态与硬件发布

资本市场对AI的热情不减，同时新的硬件产品也在不断涌现。

苹果 (Apple):

发布AirPods Pro 3，内置实时翻译：苹果发布了新款AirPods Pro 3，其最亮眼的功能是内置的实时翻译，当与不同语言的人交谈时，耳机能将对方的话实时翻译并播放给用户听，实现无障碍交流。

微软 (Microsoft) 与 OpenAI:

双方发布联合声明，表示正在敲定下一阶段合作的最终协议。微软已批准OpenAI向营利性公司转型，未来甚至可能上市。与此同时，微软也在发展自家模型并寻求与Anthropic等其他公司合作。

Meta:

投资Black Forest Labs：Meta将支付1.4亿美元与Black Forest Labs合作，外界猜测此举是为了利用其生成超写实图像的能力，以补充Midjourney在艺术风格化图像上的优势。

ASML:

领投Mistral：欧洲芯片巨头ASML向法国AI公司Mistral投资超过10亿欧元（约13亿美元），成为其领投方。

Grok (GRQ):

AI芯片制造商融资7.5亿美元：AI芯片公司Grok (GRQ) 在新一轮融资中筹集了7.5亿美元，投后估值达69亿美元，资金将用于扩大数据中心容量。

Figure:

人形机器人学会做家务：Figure公司的机器人展示了将脏盘子放入洗碗机的新能力，这是继洗衣服、叠衣服之后的又一进展。

技术在涌动，世界在改变。让我们庆幸生活在这样一个动荡变革的时代，共同见证潜移默化温水煮青蛙一般的技术革命！

你对本周哪个AI新闻最感兴趣？欢迎在评论区留言讨论！

Let's Make AGI Real

留下评论取消回复