本周AI领域不出意外地没啥意外,继续爆发意想不到的新闻,充满了令人振奋的进展。涵盖模型与技术突破、应用与产品更新、行业动态与硬件发布等多个方面。从OpenAI的GPT-5在顶级编程竞赛中碾压人类,到苹果发布自带实时翻译功能的AirPods Pro 3,再到Claude解锁直接编辑Office全家桶的新技能,每一个消息在三五年前都可以进年度十大,而今技术突破、产品落地、资本涌动,已成家常便饭,让人迟钝。AI正以前所未有的速度渗透到我们工作和生活的方方面面。
模型与技术突破
本周,多家顶尖机构发布了性能卓越的新模型,并在核心技术上取得了重要突破。
OpenAI:
- 编程能力达到“超人”水平:一个包含GPT-5的通用推理模型组合,在顶级的国际大学生程序设计竞赛(ICPC)中,解决了全部12个问题,实时击败了所有人类参赛队伍,获得了第一名。这证明了其强大的核心智能。
- “幻觉率”显著降低:通过改进训练方式,鼓励模型在不确定时回答“我不知道”,GPT-5推理模型的幻觉率已降至1.5%,远低于几年前GPT-3.5的40%。
阿里巴巴/通义实验室:
- 发布Deep Research智能体:通义实验室推出了完全开源的网络智能体“通义Deep Research”,该模型以30亿的激活参数(总参数300亿)在深度研究任务上取得了与OpenAI等顶尖模型相媲美的性能。其核心是一种新颖的自动化数据策略,可在无需昂贵人工标注的情况下创建高质量训练数据。
- Qwen模型实现重大效率提升:Qwen Next ADB 3B模型通过采用门控注意力和稀疏全连接层技术,在800亿总参数中每次仅激活30亿,实现了10倍的推理速度提升和10倍的训练成本降低。
Meta:
- 优化RAG技术:Meta的超级智能实验室通过一种名为“refrag”的新方法,将检索增强生成(RAG)的速度提升了30倍,同时能在不损失准确性的情况下处理长16倍的上下文。
- 发布小型移动端模型LLM R1:Meta推出了一系列参数量不足10亿的开源小模型,这些模型在同等规模中具有很高的准确性,性能可媲美甚至超越Qwen 3。
谷歌 (Google):
- Gemini 3.0 Ultra或将发布:开发者在谷歌的代码库中发现了对“Gemini 3.0 Ultra”的引用,预示着新一代大模型可能即将发布。
- 发布差分隐私模型Vault Gemma:为解决数据隐私问题,谷歌推出了Vault Gemma模型,该模型通过在预训练阶段注入“噪声”来保护个人信息,同时保持了与同类非隐私模型相当的性能。
- Embedding Gemma开源模型:谷歌还发布了一款专为设备端运行而设计的小型开源模型Embedding Gemma。
Grok (xAI):
- Grok 5即将开始训练:埃隆·马斯克透露,Grok 5的训练将在几周内开始。
- 推出代码模型Grok Code Fast 1:发布了特点为速度快、成本低的代码专用模型,但目前开发者普遍认为Opus 4.1和ChatGPT 4.03 Pro在代码生成方面表现更佳。
杨百翰大学 (BYU):
- 发布新推理模型Ernie X1.1:该模型在事实性、指令遵循和智能体能力方面表现出色,性能可与GPT-5和Gemini 2.5 Pro等顶级模型媲美,并在准确性和低幻觉率方面优于许多其他模型。
应用与产品更新
AI技术正在加速落地,从办公效率到日常生活,各类应用与产品不断推陈出新。
谷歌 (Google) / YouTube:
- 推出智能体支付协议(AP2):继智能体间通信协议后,谷歌又发布了智能体支付协议(AP2),允许AI智能体之间或与商家进行安全合规的交易,目前已有超过60家大型公司成为其合作伙伴。
- Notebook LM增强音频概览功能:谷歌的Notebook LM为其音频概览功能增加了“辩论”等新模式,可让两个AI就用户提供的内容生成类似播客的辩论音频。
- Waymo自动驾驶出租车进驻旧金山机场:旧金山国际机场已批准Waymo自动驾驶汽车在机场提供服务,并将分阶段推行。
- YouTube推出AI生成Shorts及多语言配音功能:YouTube向创作者推出了利用AI生成短视频(Shorts)的功能,但也引发了内容质量的担忧。同时,平台还上线了AI自动为视频生成多种语言配音的新功能。
OpenAI:
- ChatGPT推出多项功能更新:向免费用户开放了类似文件夹的“项目”功能;新增了“仅项目记忆”选项以避免信息混淆;并推出了“对话分支”功能,方便用户从特定语境继续探索。
Meta:
- 发布新一代AI智能眼镜:在Meta Connect大会上展示了第二代Ray-Ban Meta智能眼镜,用户可通过一个能感知肌肉信号的腕带进行控制。泄露的演示视频还展示了未来形态,AI能通过眼镜看到外部世界,并将信息投射到用户可见的透明屏幕上。
亚马逊 (Amazon):
- 推出AI驱动的IDE – Kiro:发布了基于VS Code的AI集成开发环境Kiro,强调通过对话生成需求文档的“规范驱动开发”工作流。
- 推出Amazon Lens Live功能:用户可通过亚马逊App扫描现实物品,应用会识别该物品并在商城中找到它或相似商品。
Anthropic:
- Claude推出强大的文件创建与编辑功能:Claude模型现在可以直接创建和编辑Excel、Word、PowerPoint和PDF文件,例如根据指令将PDF转换成PPT,或抓取数据生成Excel表格。此功能目前仅向付费计划用户开放。
字节跳动:
- 发布图像编辑模型Seedream 4.0:推出了与Nano Banana功能类似的图像编辑模型,用户可上传图片并用文字指令修改内容,但可能会扭曲人脸细节。
行业动态与硬件发布
资本市场对AI的热情不减,同时新的硬件产品也在不断涌现。
苹果 (Apple):
- 发布AirPods Pro 3,内置实时翻译:苹果发布了新款AirPods Pro 3,其最亮眼的功能是内置的实时翻译,当与不同语言的人交谈时,耳机能将对方的话实时翻译并播放给用户听,实现无障碍交流。
微软 (Microsoft) 与 OpenAI:
- 双方发布联合声明,表示正在敲定下一阶段合作的最终协议。微软已批准OpenAI向营利性公司转型,未来甚至可能上市。与此同时,微软也在发展自家模型并寻求与Anthropic等其他公司合作。
Meta:
- 投资Black Forest Labs:Meta将支付1.4亿美元与Black Forest Labs合作,外界猜测此举是为了利用其生成超写实图像的能力,以补充Midjourney在艺术风格化图像上的优势。
ASML:
- 领投Mistral:欧洲芯片巨头ASML向法国AI公司Mistral投资超过10亿欧元(约13亿美元),成为其领投方。
Grok (GRQ):
- AI芯片制造商融资7.5亿美元:AI芯片公司Grok (GRQ) 在新一轮融资中筹集了7.5亿美元,投后估值达69亿美元,资金将用于扩大数据中心容量。
Figure:
- 人形机器人学会做家务:Figure公司的机器人展示了将脏盘子放入洗碗机的新能力,这是继洗衣服、叠衣服之后的又一进展。
技术在涌动,世界在改变。让我们庆幸生活在这样一个动荡变革的时代,共同见证潜移默化温水煮青蛙一般的技术革命!
你对本周哪个AI新闻最感兴趣?欢迎在评论区留言讨论!

留下评论