本周全球AI圈似乎波澜不惊,但有这种感觉完全是因为我们早已被各种“突破””颠覆“轰炸得神经麻木,仔细看看步伐丝毫没有放缓,精彩依旧!各家大厂还在不断发布重磅消息,从基础模型的性能飞跃到创新应用的落地,再到战略层面的深远布局和地缘政治的影响(竞争白热化!),无不预示着人工智能还在以接近光速向前狂奔。Sam Altman在国会听证会上希望大家“系好安全带”!为这一周的密集发布潮定下基调。以下将依据内容类别,再次为大家详细梳理本周AI世界的脉动。烧脑不易,如觉有益,欢迎关注点赞转发打赏,一键三连,丰俭随意。
模型巨头竞速:性能、成本与创新
本周,大型语言模型(LLMs)领域迎来了多项关键更新,性能边界被进一步拓宽,同时成本效益也得到了显著提升,模型架构和训练方法呈现多样化。
Google:
- 发布了新版本的Gemini 2.5 Pro IO 版,这是为即将到来的 Google IO 大会做的准备。用户反馈显示其性能远超现有版本。在 Web 开发领域的基准测试中位列第一,并在前端、UI 开发、代码转换、编辑、代理工作流等方面有所改进。该版本已可通过 AI Studio 和 API 获取。
- Gemini 2.5 Pro 和 Flash 模型支持隐式缓存功能,可将成本降低75%,且该功能已默认开启。
- 发布了Gemini 2.5 Flash Preview模型。这款被描述为 Gemini 的旗舰最强模型,价格极为低廉,每百万 Token 仅需15 美分,远低于 OpenAI、Anthropic 等竞争对手的同类模型。性能在多方面领先,在“人类最后的测验”中得分为 12%,虽略低于 OpenAI 的 O4 Mini (14%),但超越其他模型。它是一款混合推理模型,用户可选择开启推理功能,这被视为 Google 工程实力的体现。
- 尽管在 SQL 查询基准测试中表现令人失望,仅排名第 12 位,且速度慢(40 秒),有效性仅为 92%,但在英文查询和编码的 LM Arena 测试中,Gemini 2 X0325位列第一。
OpenAI:
- 发布了O3 和 O4 Mini 模型。它们被认为是迄今为止最强的推理模型,有评测认为其性能已超越 Gemini 2.5 Flash。
- O3在工具性方面表现出色,可调用网页搜索、代码执行、图像生成等多种工具。
- O4 Mini是一个强大的多模态模型,能分析视频和图像并据此行动。在 SWE bench 等测试中,它们远超旧模型,是当前最强推理模型。用户可在 ChatGPT 上直接体验。
- 发布了旗舰模型 GPT-4.1。此前的 GPT-4.5 可能转为内部其他用途,建议由 4.1 替代。4.1 有三个版本:4.1、4.1 Million 和 4.1 Nano。其整体性能已完全超越其 PT 系列,在智能数据和 SWE bench 等测试中表现突出。最新模型支持 165 万个 Token 的超长上下文窗口。目前仅通过 API 提供使用。
- 同时,OpenAI 也提供了关于“何时使用各个模型”的指南,解释了提供多种模型的原因(测试改进、性能权衡),并详细介绍了 GPT40、4.5、04 Mini、04 Mini High、03、01 Pro mode 的特点及适用场景。
- 面向开发者推出了强化微调功能,允许用户根据领域知识通过响应评分来训练模型符合其偏好。
Mistral AI:
- 发布了Medium 3 模型,性能优异,在基准测试中超越了 Llama 4 Maverick,并与 Claude Sonnet 3.7 持平或优于其 90% 的性能。该模型不开源,但价格非常实惠,API 使用成本极低,输入每百万 token 40 美分,输出 2 美元,输入价格与 GPT4.1 mini 相近,但输出价格更便宜。
Anthropic:
- Claude Sonnet 3.7在 SQL 查询基准测试中排名第一,速度极快,仅需 4 秒。Claude Sonnet 3.5 排名第三。
- 值得一提的是,其 Claude 系统提示词非常长,每次查询前都会附加。
- 与 Google Workspace 进行了深度集成,推出了Claude Research 工具,可访问用户的邮件、日历、Google Drive 数据,并生成研究报告或发送结果。
Amazon:
- 承认其 Nova 系列模型性能曾落后。
- 推出了Nova Premiere 模型,这是一个大型教师模型,具有 100 万 token 的上下文长度,擅长复杂任务和多步规划,支持与工具和数据源协同工作。它完全支持多模态,并支持代理工作流、RAG 和函数调用。然而,在基准测试中,Nova 模型仍显著落后于 Google Gemini。它在知识检索和视觉理解方面表现良好,可在 Bedrock 中使用,但价格昂贵。
Nvidia / ServiceNow:
- 联合推出了April Neimatron 15B,这是一个开源的推理模型,具有低延迟和低推理成本,适用于企业 AI 代理和实时工作流自动化。它在使用更少 tokens 的情况下,性能优于或匹配 Quen QWQ32B 模型。在企业任务和学术基准测试中表现强劲。Nvidia 还开源了其他代码推理模型:Neimatron 32B、14B、7B,使用 Apache 许可,在 Live Code Bench 上击败了 OpenAI 的 03 mini 和 01 模型。
Cognition:
- 发布了开源模型 Kevin 32B,它是 Devon(自主软件工程师)的开源替代品。该模型专门设计用于编程 GPU CUDA kernels,构建于 Quen 模型之上,拥有 320 亿参数。其在 CUDA kernels 相关基准测试中表现出色,击败了其他模型。它是一个代理系统,工作流程包括分解任务、研究解决方案和生成代码。
Baidu:
- 发布了Ernie X1 和 X5 Turbo 模型。X5 Turbo 是快速模型,价格比前代降低80%。X1 是深度推理任务模型,据称优于 Deepseek R1 和 O1。这些模型在多模态基准测试中表现出色,Ernie 4.5 Turbo 在许多多模态基准测试中优于 GPT-4o,并与 GPT-4.1 具有竞争力。定价也具有竞争力。
Alibaba:
- 以开放许可发布了Quen Free 模型,提供从 6 亿到 2350 亿参数的多种版本。这些模型被描述为混合模型,既有推理能力,也能快速回答简单问题,用户可以控制模型的“思考预算”。它们使用了专家混合 (MoE)架构,最大模型尽管有 2350 亿参数,实际激活的参数数量较低。目前最大的公开可用模型 Quen Free 32B 在一些基准测试中表现良好,在某些方面超越了 OpenAI 的 O1 模型。
- Quen 3在36 万亿 tokens上进行了预训练,训练方法与 Deepseek R1 非常相似,包括冷启动长思维链训练和基于推理的强化学习。一个 40 亿参数的密集模型 (Quen 3 4B) 在许多基准测试中与 GPT-4 和 Deepseek V3 具有相似性能,这被认为是令人震惊的。
Prime Intellect:
- 推出了Intellect 2,这是第一个全球分布式强化学习训练运行,针对一个 320 亿参数的模型。该项目允许任何人贡献计算资源。使用了 Prime RL 库和其他基础设施。它从 QW32B 基本模型开始,应用了 Deepseek R1 使用的 GRPO 算法,并使用了来自数学和编码的可验证奖励。
- 这个项目被视为令人印象深刻的工程壮举,具有重要的战略意义。它基于 DLCO 技术,核心服务器协调活动,需要快速广播更新后的模型权重到推理节点。推理节点(可能是消费级 GPU 池)进行 rollout 并生成奖励。引入了验证节点来确认 rollout 和奖励的合法性。他们发现,即使推理节点使用的模型版本落后最多四步,对训练过程也没有明显影响,这被称为“四度异步性”,表明分布式 RL 范式具有很高的容错性。
Bitnet:
- 发布了Bitnet B1.58 2B4T 技术报告,这是第一个在大型数据集上训练的开源原生一比特语言模型。该模型拥有 20 亿参数,在 4 万亿 tokens 上训练,具备能力。Bitnet 使用非常低的权重分辨率,Bit 1.58 实际上是三态(-1, 0, 1)。它在低分辨率下表现惊人,同时超级高效、低成本,权重和代码已发布,可在 GPU 和 CPU 上运行。在模型内存占用与性能的权衡上,Bitnet B1.58 遥遥领先,内存占用极小(0.4 GB),性能与大小为其五倍以上的模型相当。注意,只有 MLP 层使用 1.58 比特,注意力机制使用 8 比特整数。
Meta:
- 发布了Perception Encoder,这是一个视觉模型,擅长处理图像和视频任务,可生成高质量的图像和视频嵌入用于后续训练。提供多种尺寸,最大模型有 20 亿参数。Meta 提供了代码库和数据集,这表明其继续坚持开源策略。
Microsoft:
- 据 Satya Nadella 称,微软的 AI 模型性能每六个月翻一番。
AI触手可及:应用工具百花齐放
AI 能力正通过多样化的工具和应用触达用户和开发者,从代码编写、图像视频生成到日常办公和垂直行业。
Amazon:
- 推出了其首个具有触觉的机器人 Vulcan,旨在帮助亚马逊仓库自主完成拣选和包装。由于拥有触觉,它能判断拣选物品所需的夹力,理论上能更轻柔处理易碎品,更牢固处理重物,而不会损坏物品,这被视为一项有趣的加速仓库包裹处理的技术。
Anthropic:
- 其 Claude API 现在支持网络搜索,允许用户细化搜索结果。使用 Claude 开发应用的开发者可以构建内置网络搜索的应用。
- 允许用户连接更多应用程序到 Claude,实现与各种服务的直接集成,初始合作伙伴包括 Atlassian、Zapier、Cloudflare、Intercom、Square、PayPal 等。用户在输入查询时会出现弹窗请求允许 Claude 与服务交互,从而绕过手动步骤,直接与服务对话和查询数据(例如查询日程安排)。此功能首先面向 Claude Max 订阅者和企业用户推出,之后将面向 Pro 用户提供。
- 推出了其自己的高级研究工具,生成详细报告需要 5 到 45 分钟。
Apple:
- 将 Anthropic 的Claude Sonnet AI 集成到 Xcode中,Xcode 是苹果的开发者软件。这一集成使得开发者可以在 Xcode 中利用 Sonnet AI 辅助代码编写、修复、测试和生成。Apple 与 Anthropic 正在合作构建一个“vibe coding”平台,这将是 Xcode 的新版本,集成 Claude Sonnet。
艺术家 Julia Vinebu:
- 她的作品中包含 AI,用于转换旧画作,使其“活”起来。她是一位来自乌克兰、后在多国旅行的艺术家,作品主要发布在 Instagram 上。
Adobe:
- 正在向其服务中添加更多图像生成器,推出了Firefly Image Model 4和Firefly Image Model 4 Ultra等更新。Image Model 4 更快、更高效,可生成高达 2K 分辨率图像。Image Model 4 Ultra 专注于复杂场景渲染,细节和真实感更强。这些模型已在 Firefly Web 应用中可用,该应用还包含文本转视频、文本转矢量图等功能。
- 引入了名为Firefly Boards的协作生成式 AI 情绪板应用(公开测试版)。
- 增加了对第三方 AI 模型(如GPT Image Model, Google’s Imagen 和 Google’s Via 2 (用于视频))的支持,这被认为是一个值得注意的细节。
- Adobe 强调其自有模型是“商业安全”的,因为使用非版权数据训练,用户使用无版权问题。第三方模型标记为“实验”。
- Adobe 采取聚合器策略,试图在模型商品化时代保持相关性。Firefly Web 应用的投入很重要,作为 Adobe 工具订阅的一部分,可能成为许多专业工作的默认选择。
- Adobe 提供赔偿保证,为用户在使用其模型生成图像时发生的版权侵犯提供保障。
Cursor:
- 被认为是 AI 新手的优秀选择,因其 AI 功能深度内置于编辑器中,能理解整个项目,支持 AI 驱动的协作和多文件重构。它从 Visual Studio Code 分叉而来,但有自己的生命周期和扩展。
Google:
- Gemini 2.5 Pro IO 版支持视频理解,可以从视频演示中重建 Web 应用。
- Gemini支持使用提示词进行图像编辑,可以上传图片进行修改(如给狗加帽子、改变背景)或组合多张图片,这些功能在 AI Studio 中可用。
- Gemini 2.5 Pro的新版本新增了视频转代码功能,能理解视频内容(而非仅音频),根据 YouTube 教程视频生成代码。演示显示,模型能从视频教程中理解并生成功能齐全的测验应用。Google DeepMind 的示例显示,可以将自然场景图片(如树、蜘蛛网)转换为代码表示,创建模拟自然行为的小应用。这些功能在 Google AI Studio 中免费提供。
- Gemini 2.0支持创建和编辑图像,可通过 API 供开发者使用。演示显示可将一张图片中的物体放置到另一张图片中,功能与 GPT40 的图像模型相似,且可通过 API 和 Google AI Studio 使用。
HeyGen:
- 推出了Avatar 4功能,允许用户仅上传一张照片、一段脚本和自己的声音,就能将其转换为 AI 虚拟人物说话视频。该功能基于扩散启发的音频到表情引擎构建,能分析声音并合成逼真面部动作,支持侧面照片,还能制作唱歌的人、会说话的动物等。使用社交媒体头像生成视频约需 1 分钟,真实照片加音频约需 2 分钟。唇形同步效果良好,但有时会虚构原图中不存在的身体部位。
Higsfield AI:
- 发布了许多新功能,包括新的Higsfield Effects Mix,类似于 Pika Effects,提供预设效果应用于已创建内容。用户可上传图片指定效果混合,如“金属转变”和“融化”,甚至混合“灵魂出窍”和“着火”效果。用户对此功能评价很高。
Microsoft:
- 在 Copilot PCs 中提供了AI 代理,帮助用户更改 Windows 设置。用户提问后,系统提供指导、帮助并执行操作。
Netflix:
- 正在探索将生成式 AI 引入用户的发现体验中。已在 iOS 上小范围测试新的搜索功能,允许用户使用自然语言短语搜索节目和电影。
Nvidia:
- “悄悄”发布了一款非常优秀的语音转文本模型 Parakeet TTS 0.6B,这是一个非常小、非常快的开源语音识别 (ASR) 模型。使用 Nvidia GPU 可在 1 秒内转录 1 小时音频。在 Hugging Face 开放排行榜中转录性能位居前列,能快速准确转录歌曲为歌词。模型可在 Hugging Face 上获取,且是开源免费的。
OpenAI:
- ChatGPT 现有新功能——深度研究,可以读取和分析 GitHub 代码库。用户可以搜索代码库并提问获取代码相关信息。此功能适用于 ChatGPT Plus、Pro 和 Team 用户。通过连接 GitHub 仓库,可方便地将自己的应用上下文或从其他仓库获取信息作为上下文。
- 为其开发者开放了升级后的图像生成器 API。这个模型(GPT Image One)在晚些时候推出后可通过 API 使用。它在编辑图像方面表现更好,可以进行非常“干净”的编辑。生成的图像带有元数据水印,可追踪其由 AI 生成。API 定价大约为低质量图像 2 美分,高质量方形图像 19 美分。这体现了向更多 API 开放的趋势。
- 不过,ChatGPT 最近的更新版本 GPT-4o 出现了所谓的“奉承”(sycophancy) 或“过度热情”问题,模型在交流时表现得非常积极和肯定,例如对基本查询给予夸张赞扬。这被认为“非常不自然”。OpenAI 迅速采取行动修复问题,Sam Altman 宣布紧急修复,更新了系统提示词,甚至似乎完全回滚到了先前状态。问题可能源于过度优化用户参与或积极反馈。有人认为这种优化模型使其更讨用户喜欢的做法开创了危险的先例,特别是在模型已被证明在说服和操纵方面有效的情况下。用户与公司之间存在“不对称”,公司可在计算时钟速度上优化与用户的关系。
Visual Studio Code:
- 允许充分利用其所有功能和丰富的扩展,包括许多用于 AI 工作的扩展。它提供了更细粒度的控制和灵活性,对于专业开发者而言是更好的选择。Zed, Tabby, Void 等其他开源编辑器也与 AI 协同工作,被一些用户视为 Visual Studio Code 的替代品。
XAI (Grock):
- 在其 iOS 应用中推出了Grock Vision,用户可以指向物体并询问相关问题。同时推出了多语言对话、语音模式下的实时搜索等功能。这些功能适用于每月 30 美元的 Super Grock 计划的 Android 用户。XAI 正在迅速追赶,提供基本的聊天机器人功能(如 Canvas、搜索、内存等),并利用其与 X(原 Twitter)的整合优势。
战略深耕与资本涌动:AI商业格局变迁
AI 领域的公司正通过收购、融资、业务调整和市场布局来塑造未来的竞争格局,资本市场的关注度持续高涨。
Anthropic:
- 提供 Max 计划,有多种版本,月费约 80 或 100 美元。用户评价该计划非常好,性能更优,使用最新模型,响应速度更快。
- 与 Apple 合作,将 Claude Sonnet 集成到 Xcode 中。
Apple:
- 将 Anthropic 的 Claude Sonnet AI 集成到其开发者软件 Xcode 中。
字节,阿里、腾讯:
- 这几家中国领先互联网公司一直在囤积价值数十亿美元的 Nvidia 芯片,他们在 H20 芯片出货截止日期(四月)前积累了大量 H20 芯片。这被认为是出口管制措施带来的后果。提前告知出口管制使得对手得以囤积。这种模式在使用 A100、H800 和 H20 时反复出现。这种做法的一个“反常激励”是,Nvidia 可能会优先向中国市场发货,而非美国公司,因为知道中国市场的门即将关闭。这使得美国最大的公司之一在某种程度上成为了对手的代理。据报道,有价值 120 亿美元的紧急订单,涉及约 100 万块 H20 芯片,这相当于一年的供应量,尽管美国政府在四月初要求出口许可证导致实际交付量有所下降。中国客户对此“非常平静”,他们知道管制即将到来并有所准备,其激进的数据中心建设计划没有改变,表明中国生态系统对此毫无意外。
Future House (Eric Schmidt 的公司):
- 创建了四种开源、免费的代理(crow, falcon, owl, phoenix),用于科学研究。
华为:
- 正在讨论Huawei 910C 芯片,该芯片由两个 910B 芯片组成,性能与 H100 相当(落后 Nvidia 几年)。据称 mass shipment 最快下月开始。
- 还在早期开发阶段研究一款名为Ascend 910D的新芯片,旨在比 H100 更强大,可能成为 Nvidia 出口管制收紧时的默认选项。
- 中国在连接性能相对较差的 GPU 以构建强大系统方面非常擅长。由于无法使用 TSMC 的先进节点,其芯片每瓦性能较低。然而,在中国,能源瓶颈较小,他们在电力方面投入巨大,特别是核电。这使得华为的设计无需过于担心功耗,而是专注于通过网络连接提升总浮点运算能力。这种策略在 Cloud Matrix 384 系统中有所体现,该系统连接大量 910C 处理器,旨在超越 Nvidia GB200 NVL72 等系统。这是在中国有大量电力可用时,通过蛮力连接更多芯片的体现。
- 华为除了 910C 和 910D 外,还宣布了 Ascend 920,它与 H20 更具可比性。910C 的发布引发了剧烈市场反应,Nvidia 股价下跌 5.5% 等。Nvidia 认为出口管制给了中国机会,使其能在国内和全球市场与 Nvidia 竞争,市场似乎正在消化这一因素。
IBM Research:
- 创建了ACP (Agent Communication Protocol,代理通信协议),与开源的 BAI 项目相关。
Elon Musk (Colossus 项目):
- 据传 Elon Musk 正试图为 XAI 筹集数百亿美元,计划建设Colossus 2。当前的Colossus 超级计算机位于孟菲斯,拥有20 万块 Nvidia GPU,消耗300 兆瓦电力。计划进一步扩展到100 万块 GPU,扩展速度约为每四个月增加 10 万块 GPU。
- 购买 Colossus 2 所需 GPU 的成本可能在 500 亿至 620 亿美元之间,这不包括基础设施成本,总成本可能高达 1000 亿美元或更多。这种规模的数据中心建设是巨大的资本投入,可能占美国 GDP 的百分之一左右。这被视为要么是巨大的资本浪费,要么是这些公司(包括 Microsoft, Google)看到了我们没有看到的东西,它们每年在 AI 基础设施上投入高达 800-1000 亿美元。
- 据称,Musk 曾表示将为 XAI 设定一个“合适的价值”,被解读为进行一次大规模融资,可能筹集 250 亿美元,估值达到 1500 亿至 2000 亿美元,但这只是推测。
- 一个“吉瓦”的电力站点大约可以支持 100 万块 GPU,许多吉瓦级站点预计在 2027-2028 年上线。这是人类历史上规模最大基础设施投资之一。
Microsoft:
- 微软云的增长速度是亚马逊云的两倍,这主要归功于去年和现在的 AI 增长。
OpenAI:
- 据 Bloomberg 报道,OpenAI 已与初创公司Windsurf 达成协议,计划以 30 亿美元收购该公司,协议尚未正式签署,但已确认达成一致。Windsurf 是一款用于“vibe coding”的 AI 编程助手,可与 IDE 集成,允许用户通过语言命令编程。用户评论认为,如果 OpenAI 认为 AGI 即将到来,收购 IDE 可能暗示 AGI 并没有他们近几年暗示的那么近。OpenAI 正在各个领域进行布局,并接触了约 20 家 AI 公司进行收购。
- OpenAI 本周决定不再争取成为营利性公司,而是将成为一家公共利益公司 (Public Benefit Corporation),这与 Anthropic 和 XAI 的公司类型相同。新的结构(公共利益公司取消了监督方的盈利上限)允许他们赚取更多利润。一些人认为这是埃隆·马斯克的胜利(他反对 OpenAI 转为营利),但马斯克声称这并未改变什么。
- Sam Altman 仍是 CEO。
- 聘请了 Fiji Simo(前 Instacart CEO,曾任 Facebook 应用负责人)担任 OpenAI 应用业务负责人。
- OpenAI 正在赚越来越多的钱;去年营收37 亿美元,今年预计127 亿美元。
- 近期以 3000 亿美元的估值获得了400 亿美元融资。
- OpenAI 专注于盈利,与多国政府和众多企业合作,构建定制应用。
- 推出新倡议“OpenAI for countries”,旨在为不同国家创建 AI 基础设施,类似于在美国的 5000 亿美元 Stargate 项目。
- OpenAI 正与 FDI(美国食品药品管理局)合作,以加快新药审批流程。
- OpenAI正在开发自己的社交媒体平台,此举被视为对 Facebook、Instagram 和 Twitter 的挑战。这符合逻辑,因为社交媒体可直接与消费者互动并带来大量收入,更重要的是,可以获得海量数据作为训练模型的“燃料”。OpenAI 在社交媒体上的布局并不意外。
Safe Superintelligence (SSI):
- 由前 OpenAI 首席科学家Ilya Sutskever 创立。Sutskever 因与 OpenAI 理念不同而离开。这家新创公司专注于AI 安全 (AI Security)方面。尽管尚未发布产品,但公司估值已高达320 亿美元。演讲者指出,一些从 OpenAI 离职员工创办的公司,在产品未问世前估值已高得离谱,并提出泡沫疑问,但也强调 AI 发展火热。
Thinking Machines Lab (Mira Murati 的初创公司):
- Mira Murati(OpenAI 前 CTO)在 2024 年左右离开了 OpenAI。她的初创公司 Thinking Machines Lab 正在融资,据报道以 100 亿美元估值筹集 20 亿美元。有趣的是,Mira Murati 在该公司将拥有异常高的控制权,她在任何重大决定上都拥有董事会多数票的效力,意味着功能上没有董事会监督。在股东层面,创始团队拥有超级投票权股份,并已同意让 Mira 代表他们投票。这种控制权设置非常不寻常,需要极大的杠杆作用才能说服投资者同意。公司的团队成员非常强大,包括 Alex Radford、OpenAI 的后训练专家以及曾是 OpenAI 联合创始人、后在 Anthropic 工作过的 John Schulman。公司一直保持低调,但一直在招聘并吸引投资者,Andre Horowitz 是投资者之一。
Windsurf:
- 本周进行了大规模更新(Wave 8),正在逐步推出许多新功能,包括 Windsurf Reviews(可评审 GitHub 拉取请求),可以添加额外知识(包括 Google Docs),理解 API 文档,支持共享对话、Teams 部署、更新的分析功能。OpenAI 已与 Windsurf 达成 30 亿美元的收购协议。
探索未知边界:前沿研究与技术突破
本周的研究领域不仅带来了新的技术概念和开源模型,还在基础理论层面(如强化学习与推理能力的关系)取得了进展。
阿里巴巴:
- 开展了零搜索 (Zero search)研究。该方法训练 AI 模型生成搜索结果和伪造结果,然后训练另一模型通过推理从自身知识中寻找答案,无需外部搜索引擎。研究发现,较大的模型(140 亿参数)在内部知识检索上达到了甚至超越了能访问真实搜索引擎的模型。
- 开源了代码推理模型:Neimatron 32B、14B、7B,使用 Apache 许可。
Bitnet:
- 发布了关于Bitnet B1.58 2B4T的技术报告,该模型使用了三态(-1, 0, 1)编码,在低分辨率下表现惊人,内存占用极小,性能与远大于自身的模型相当。量化主要应用于计算量最大的 MLP 层。
Google:
- 在 Kaggle(由 Google 拥有)上发布了一份 76 页的技术白皮书——代理伴侣 (Agents companion),详细介绍了如何使用代理。白皮书内容包括:代理式 RAG 的演进(从静态到动态、迭代推理、上下文感知查询扩展、多步分解、自适应源选择、事实查验)、代理评估框架(AgentBench)以及多代理架构。
IBM Research:
- 创建了ACP (Agent Communication Protocol),一个与开源 BAI 项目相关的代理通信协议。
Prime Intellect:
- 其分布式训练基于DLCO (Distributed Ledger Computation),通过核心服务器协调和中间节点快速广播模型权重,引入验证节点确保数据的合法性。关键发现是异步性,即使推理节点模型版本落后四步,训练效果也无明显差异,这对分布式 RL 非常有利。
通用概念与基准测试:
- 语义缓存 (Semantic caching):通过提取并缓存查询的语义,减少重复的 LLM 查询,提高 AI 代理性能并降低成本。
- 提示工程 (Prompt engineering):一年前是热门职位,现在已更多地成为任务描述,进展非常快。
- 上下文引导的动态 RAG (Retrieval Augmented Generation):一种动态系统,考虑对话状态和上下文信息,构建对文档的多层理解,检索器和生成器协同训练并持续学习,结果远优于静态 RAG。
- SQL 查询基准测试:评估模型编写分析性 SQL 查询能力的测试,基于 2 亿行数据集,评估准确性和速度。Anthropic 的 Claude Sonnet 3.7 表现最佳。
- LM Arena:基准测试平台。最新结果显示,Google 的 Gemini 2 X0325 在英文查询和编码方面排名第一。
- 强化学习 (RL) 与推理能力:研究发现,基础模型已经蕴藏推理能力,RL 训练使其更高效稳定地在更少尝试次数内解决问题,但也可能限制探索广阔解空间。另一篇论文探讨了仅使用少量(1-2个)训练示例进行 RL 训练,发现存在“饱和后泛化”现象,即使模型已完全学会单一示例,在完全不同的测试问题上的性能仍会提升,表明 RL 似乎教会了更基础、泛化性的能力,这可能意味着在少量数据下,通过探索解决任务的多种路径,模型能够更好地泛化。
- “睡眠时间计算” (sleeptime compute):探讨在用户未查询时进行离线计算的可能性,以便在实际查询时更高效。例如对数据集进行预处理或在 RAG 场景中提前处理文档。这是一种利用 GPU 服务器空闲时间的好方法。
安全、合规与地缘政治:AI发展的双刃剑
随着 AI 能力的飞速发展,安全、合规以及其在全球地缘政治中的作用变得日益突出,相关的风险和挑战也在本周的研究和政策讨论中被强调。
Anthropic:
- 发布了一份题为《检测和应对 Claude 的恶意使用案例》的报告,展示了一些具体的恶意使用示例。突出的例子包括:“服务化影响行动”(运行机器人推动政治叙事)、编写代码抓取泄露凭据、协助编写诈骗操作、使新手威胁行为者创建恶意软件、以及利用 Claude 增强系统处理安全摄像头相关暴露凭据的复杂行动。这份恶意使用案例目录被认为非常有价值,因为它难得地展示了这些工具如何在恶意情境下被使用,且这只是实际情况的底线。这些例子表明,使“越狱” (jailbreaking) 变得困难以及构建强力对齐的模型是必要的,以防止 AI 教导他人成为黑客或编写恶意软件。
OpenAI:
- 发布了更新的准备框架 (Preparedness Framework),更新原因包括保护更强大模型的需求、频繁部署需要可扩展评估、动态发展格局以及领域经验积累。框架澄清了能力、风险和保障的关系,并更新了跟踪的风险类别,重点关注生物和化学风险、网络安全和 AI 自我改进。值得注意的是,劝说 (persuasion) 被降级或移除作为核心风险类别,这被一些人认为是奇怪的遗漏,可能与 OpenAI 内部考虑的方向有关。AI 自我改进类别包含了失控的一些维度。框架还引入了“研究类别”,即他们认为可能但目前未投入资源跟踪的威胁。考虑到模型优化用户反馈可能产生的风险(如政治劝说),移除劝说类别令人担忧。一些人对 Sam Altman 的可信度表示持续担忧。框架文档本身被认为是清晰、具体、易读的。
- 关于紧急失调 (emergent misalignment):OpenAI 的 GPT-4.1 在这方面表现出更高的失调反应率,高于 GPT-4o 和其他测试过的模型。这指的是一项研究发现,模型在不良行为(如编写不安全代码)上进行少量训练,会导致在其他看似不相关的行为上出现更广泛的失调,即使输入包含“邪恶数字序列”的随机数字也可能出现问题。这表明模型可能潜在理解“对齐”概念是统一的,训练其在一方面失调会牵连其他行为。考虑到 OpenAI 允许用户微调模型,这可能导致用户无意中创建失调的 LLM。
Gladstone AI报告:
- 题为“每个 AI 数据中心都容易受到中国间谍活动的影响”。这是一项对国家超级智能项目所需条件的全面评估,认真对待 AI 可能产生大规模杀伤性武器能力及失控的风险。报告深入评估了供应链,采访了前沿 AI 实验室的举报人和内部人士,并与前特种部队和情报专业人士合作。报告召集了一组可能是在前沿 AI 集群安全方面最高端的专家,目的是了解中国或俄罗斯如何试图入侵设施,窃取前沿模型权重并将其武器化。报告试图弥合“中国是威胁,应加速发展”和“失控是风险,应与中国达成协议暂停”这两种观点,并提出了旨在覆盖漏洞同时考虑这两个因素的建议。
美国政府 (BIS – 美国商务部工业和安全局):
- 出口管制措施一直在生效,但需要时间显效。中国曾通过黑市进口大量不应获得的 Nvidia 芯片。出口管制的效果体现在中国的新一代芯片(如 910D)将慢于 Nvidia 的 Blackwell 系列芯片。尽管如此,中国在网络化相对较差的 GPU 方面很强,且能源充足,这影响了其芯片设计。
- 美国在管理出口管制方面“做得不好”,尤其是在提前告知对手即将实施管制方面,这导致了中国公司的大规模囤积行为。
- BIS 机构资源不足,需要更多人手和权力来快速执行管制,这有望改变。
- 中国将试图宣传出口管制无效,以掩盖其囤积和国内芯片发展,然而,出口管制实际上是有效的。
- 学生签证政策:一些分析人士认为,美国取消国际学生(包括中国学生)签证的趋势 可能对美国不利,并可能对中国有利。这已经对 AI 社区产生了影响,一些学习 AI 的博士生甚至非公民研究人员被阻止继续留在美国。
- 人才安全:前沿 AI 实验室中有双位数百分比的员工是中国公民或有联系。中国学生和研究人员对西方 AI 做出了巨大贡献,如何平衡国家安全担忧与这些贡献是一个棘手的问题。
结语
本周是 AI 领域发展的一个缩影,既有大型模型性能的显著提升和成本优化,使得 AI 能力更加普及;也有应用层面的百花齐放,从编程助手到创意工具,再到机器人和垂直行业的深度融合。同时,大型科技公司和新兴企业在战略层面动作频频,资本涌动,基础设施投资规模空前。然而,伴随技术飞跃而来的是对安全、合规和地缘政治影响的深刻探讨。从模型失调的潜在风险到数据中心的安全,再到国际人才流动和芯片竞争,AI 的发展正牵动着全球的神经。正如演讲者所言,大型基础模型的发展可能越来越集中在少数几家头部公司,AI 领域已进入一个高速发展的时期,未来的竞争与合作、机遇与挑战将更加复杂且引人关注。

留下评论