1. 模型竞技场:新秀登场,巨头升级
本周人工智能领域的基础模型层面展现出持续的活力,新模型发布与现有模型升级齐头并进,竞争格局日益激烈。
1.1 OpenAI:图像、开源与推理优化并进
OpenAI 继续巩固其在模型研发领域的领先地位。其顶级的图像生成模型 GPT image one 已通过 API 形式向开发者开放。该模型在响应精确指令和可靠渲染文本方面相较于 DALL-E 有显著改进,并且接受图像作为输入,支持图像编辑和修复等新功能。开发者可以根据具体需求选择不同的分辨率和相应的价格方案。
在多模态理解方面,OpenAI 的 o3 和 o4-mini 模型展现出强大的视觉感知能力,包括根据照片准确识别拍摄地点的潜力。这些模型于 2025 年 4 月 16 日发布,特别是 o3 作为其最强大的推理模型,在编码、数学、科学和视觉感知等多个领域树立了新的标杆。o4-mini 则是一款针对速度和成本效益优化的模型,在保持强大性能(尤其在数学、编码和视觉任务上)的同时,提供了更高的使用速率限制。这两款模型都能将图像直接整合进它们的思维链(chain of thought)推理过程中。
此外,OpenAI 计划在未来数月内(预计六月左右)发布一款重要的开源 AI 模型。据称,该模型的性能将超越 Meta 的 Llama 系列和 Deepseek 的同类产品。值得注意的是,这款开源模型可能拥有超过 1000 万 token 的超长上下文窗口,甚至具备调用 OpenAI 闭源模型 API 的能力,这预示着其在功能和灵活性上可能有重大突破。这一举措被视为 OpenAI 对日益增长的开源社区力量的回应,也是其自 2019 年发布 GPT-2 以来在开源领域的重大回归。
为了优化用户体验和研究效率,OpenAI 还推出了由 o4-mini 驱动的轻量级深度研究(Deep Research)版本。此举旨在提高 Plus、Team 和 Pro 用户的速率限制,使他们能够更频繁地使用深度研究功能(每月 25 次)。同时,为了惠及更广泛的用户群体,OpenAI 在免费计划中也开放了原版的深度研究功能,截至 5 月 25 日,免费用户每月可使用五次。
1.2 Google:视频生成与模型效率双突破
Google 在多模态生成和模型效率方面也取得了显著进展。其高质量的文本到视频生成模型 Veo 2 于 2025 年 4 月 15 日左右正式在 Gemini API、AI Studio 以及 Gemini 移动应用中上线。Veo 2 能够将文本提示转化为长达 8 秒、720p 分辨率的高清视频片段,并以其电影般的真实感、对物理世界和人类运动的深刻理解以及跨多种风格的适应性而著称。该模型还驱动了 Google Whisk 实验中的图像到视频动画功能。Veo 2 的广泛可用性,特别是在开发者平台上的部署,为创意广告、电子商务、教育等领域的内容创作提供了强大工具。
在模型推理方面,Google 推出了 Gemini 2.5 Flash 的预览版。作为一个混合推理模型,它在多个基准测试中表现优异,尤其在 STEM(科学、技术、工程、数学)领域能力突出。该模型的设计注重低延迟和成本效益,即将登陆 Vertex AI、AI Studio 和 Gemini 应用。用户还可以根据需求控制推理预算,增加了使用的灵活性。
为了让强大的模型能在更多设备上运行,Google 在其 Gemma 3 开源模型系列中引入了量化感知训练 (Quantization-Aware Training, QAT) 技术。QAT 在模型训练过程中就模拟低精度运算,使得模型在量化(例如,从 BF16 降至 int4)后能更好地保持准确性。这一技术显著降低了模型的内存需求,例如 Gemma 3 27B 模型的 VRAM 需求从 54GB 降至 14.1GB,使得在消费级 GPU(如 NVIDIA RTX 3090)上本地运行大型模型成为可能。Google 已通过 Hugging Face、Kaggle 以及 Ollama、LM Studio 等流行工具发布了 Gemma 3 QAT 模型,极大地提升了高性能开源模型的可及性。
1.3 xAI:旗舰模型升级,视觉能力加持
由 Elon Musk 领导的 xAI 公司在本周也动作频频。该公司于 2025 年 2 月 17 日发布了其最新的旗舰 AI 模型 Grok 3。Grok 3 及其轻量级版本 Grok 3 Mini 在多个基准测试中展现出卓越性能。例如,Grok 3 在 Chatbot Arena 上成为首个评分超过 1400 的模型,并在数学(MATH 50.6%,GSM8K 90%)等领域较前代有显著提升。Grok 3 Mini 虽然更小巧,但在 Aime 2024 数学基准测试中达到了 93% 的峰值,并在数学、编程和科学任务上表现突出。
关键在于其极高的性价比。Grok 3 Mini 的 API 定价($0.3/百万输入 token,$0.5/百万输出 token)远低于 OpenAI O4-Mini 或 Google Gemini 2.5 Pro 等同类模型。Grok 3 标准版的 API 定价为 $3/百万输入 token 和 $15/百万输出 token。Grok 3 Mini 拥有 100 万 token 的上下文窗口,而 Grok 3 标准版则为 128,000 token。
除了模型性能和价格优势,xAI 还为其 Grok 聊天机器人增加了视觉功能,称为 Grok Vision,于 2025 年 4 月 22-23 日左右推出,首先登陆 iOS 平台。用户可以通过手机摄像头实时指向现实世界中的物体、标志或文档,并向 Grok 提问,获取即时的 AI 分析和见解。该功能响应迅速(约 2.1 秒),可用于即时翻译、文档分析、物体识别等多种场景。此外,Grok 的语音模式也增加了多语言音频(支持印地语、西班牙语、日语等)和实时搜索功能,但这些高级语音功能目前主要面向 SuperGrok 付费用户。这些更新使得 Grok 在多模态交互和性价比方面成为一个不容忽视的竞争者。
1.4 Meta:聚焦视觉理解与开放研究
Meta AI(FAIR)在本周发布了一系列围绕视觉理解、机器人技术和 AI 协作的研究成果,彰显其在基础研究和开源领域的持续投入。
核心发布之一是 Perception Language Model (PLM),于 2025 年 4 月 17 日推出。这是一个开放且可复现的视觉语言模型系列(包含 1B、3B、8B 参数版本),专注于复杂的视觉识别任务,特别是视频理解。PLM 结合了强大的 Perception Encoder (PE) 视觉编码器和 LLaMA 3 语言解码器。为了克服现有视频数据集的不足,Meta FAIR 收集并标注了 250 万个新的细粒度视频问答和时空字幕样本,据称是同类中最大的数据集。同时发布的还有 PLM-VideoBench,一个旨在评估细粒度活动理解和时空推理能力的新基准测试。Meta 希望通过开放模型、数据和基准,推动社区在视频理解领域的研究。
为了让机器人更好地理解和交互于 3D 环境,Meta 发布了 Locate 3D 模型(2025 年 4 月 17 日)。这是一个端到端的模型,可以直接处理来自 RGB-D 传感器的 3D 点云数据,根据自然语言指令(如“沙发和灯之间的小咖啡桌”)精确定位物体。它利用了新颖的自监督学习算法 3D-JEPA 来学习点云特征,并结合语言查询来预测物体的边界框和掩码。Meta 还发布了一个包含 13 万个注释的大型 3D 指称表达数据集,以支持该领域的研究。
着眼于未来 AI 协作的场景,Meta 推出了 Collaborative Reasoner (Coral) 框架(2025 年 4 月 17 日)。该框架旨在评估和提升大型语言模型在协作任务中的推理和社交技能,例如有效沟通、换位思考、说服伙伴等。Coral 包含需要两个智能体通过多轮对话共同解决的推理任务,并提出了使用合成交互数据进行自我改进的方法。为支持大规模合成对话数据生成,Meta 还构建了可扩展的多智能体通信框架 Matrix。
在视觉表征学习方面,Meta AI 于 2025 年 4 月 24 日左右发布了 WebSSL。这是一个可扩展的、不依赖语言监督的视觉自监督学习方法系列,包含基于 DINOv2(联合嵌入学习)和 MAE(掩码建模)的 ViT 模型(参数范围 300M 至 7B)。这些模型仅使用 MetaCLIP 数据集中的 20 亿张图像进行训练,旨在探索纯视觉学习的潜力。研究发现,WebSSL 模型在 VQA 任务上随模型规模扩大表现出近乎对数线性的性能提升,并在 OCR 和图表理解任务上(当训练数据富含视觉文本时)优于同等条件下训练的 CLIP 模型。这表明大规模视觉模型即使没有语言标签也能学习到与文本语义相关的特征,挑战了语言监督对于多模态理解的必要性假设。
同时,关于 Meta 的纯视觉 Transformer 模型系列 DINOv2 的讨论也在持续。DINOv2 作为一种先进的自监督视觉基础模型,通过学生-教师框架进行训练,无需标签即可学习强大的视觉特征。其关键创新包括完全自监督训练、改进的自蒸馏框架以及利用大规模、多样化数据和高效训练技术(如 FSDP 大批量训练、稳定 SGD)。这些研究共同构成了 Meta 在推动更强大、更通用、更开放的视觉和多模态理解能力方面的重要布局。
1.5 中国公司 Bidence 与 AI2 的开源贡献
中国的 AI 公司 Bidence(字节跳动)在视频生成领域取得了引人注目的进展。该公司于 2025 年 4 月 11-14 日左右发布了名为 Seaweed-7B 的视频基础模型。该模型以其高性价比脱颖而出,仅用约 70 亿参数和相对较少的计算资源(66.5 万 H100 GPU 小时),就在性能上达到甚至超过了参数量更大的同类模型(如拥有 140 亿参数的 Wan 2.1)。在图像到视频生成的评估中,Seaweed-7B 的 Elo 得分达到 1047,胜率 58%,优于 Wan 2.1 的 53%。其成功归功于关键的设计决策,包括高效的数据精炼流程(将无效数据比例从 42% 降至 2.9%)、创新的 VAE 架构(采用因果 3D 卷积,实现 64 倍压缩比和 720p 重建)和混合流 Transformer(共享参数减少计算量),以及分阶段的渐进式训练策略。Seaweed-7B 不仅生成速度快(720p@24fps),资源需求低(40GB VRAM),还具备良好的泛化能力,支持长视频生成、实时生成和超分辨率等下游应用。这项工作展示了在资源有限的情况下,通过巧妙设计仍可实现 SOTA 级别的视频生成,有助于技术的普及化。
与此同时,艾伦人工智能研究所 (AI2) 继续其对开源社区的承诺。AI2 以其“真正开放”的理念闻名,不仅发布模型权重,还公开训练数据、代码和评估框架。虽然近期发布了像 OLMo 2 32B 这样的大模型(该模型在多个学术基准上优于 GPT-3.5 Turbo 和 GPT-4o mini),但其 OLMo 和 Tülu 模型家族涵盖了从 10 亿参数到 4050 亿参数的各种规模,满足不同研究和应用需求。AI2 还特别关注提升 AI 透明度,于 2025 年 4 月 9 日推出了 OLMoTrace 工具,允许用户实时追溯模型输出到其训练数据中的具体来源。此外,AI2 与 Google Cloud 达成合作,将其开放模型引入 Vertex AI 平台,进一步扩大了其影响力。AI2 的持续开源发布,特别是对小模型的关注和对透明度的强调,为 AI 生态系统提供了宝贵的资源和范例。
1.6 Nvidia 与新兴混合架构:长视频与效率并重
Nvidia 在多模态学习领域也推出了新成果。2025 年 4 月 21-22 日,Nvidia 发布了 Eagle 2.5 VLM 系列模型。这是一个专注于长上下文多模态学习的视觉语言模型家族,特别擅长处理长视频理解和高分辨率图像理解任务。尽管参数量相对较小(最佳模型 Eagle 2.5-8B 只有 80 亿参数),但通过专门设计的训练框架和数据集,它在长视频基准测试(如 Video-MME,输入 512 帧时达到 72.4%)上取得了与顶级商业模型(如 GPT-4o)和参数量远超自身的大型开源模型(如 Qwen2.5-VL-72B)相媲美的性能。其成功的关键在于创新的训练策略,如信息优先采样(包括图像区域保持 IAP 和自动降级采样 ADS)和渐进式混合后训练,以及专门构建的包含故事级和片段级注释的长视频数据集 Eagle-Video-110K。Eagle 2.5 的出现表明,通过优化数据和训练方法,可以在不依赖巨大模型规模的情况下有效解决长视频理解这一挑战。
同时,模型架构的创新也在进行中,旨在克服 Transformer 在处理长序列时的二次复杂度瓶颈。一种新兴的混合模型架构,如 Nemotron-H(Nvidia 发布于 2025 年 4 月 16 日左右) 和 MaTVLM,通过用具有线性复杂度的 Mamba(或 Mamba-2)层替换 Transformer 解码器中的部分自注意力层,来寻求速度和效率的提升。Nemotron-H 系列(包括 8B 和 56B/47B 版本)声称在保持与同等规模 SOTA Transformer 模型(如 Qwen-2.5、Llama-3.1)相当或更好准确性的同时,推理速度可提升高达 3 倍,并显著降低内存消耗。MaTVLM 的实验也显示了类似的 Mamba-Transformer 混合架构相对于纯 Transformer 教师模型高达 3.6 倍的推理加速和 27.5% 的 GPU 内存节省。这类混合模型在处理极长上下文(如 65k 甚至目标 1M token)方面展现出巨大潜力,有望成为未来高效处理长序列任务的重要方向。
1.7 Physical Intelligence:赋能机器人与物理世界交互
将 AI 的智能赋予物理实体,使其能够在现实世界中执行任务,是机器人领域的前沿方向。Physical Intelligence (π) 公司正致力于此,开发基础模型和学习算法,驱动机器人和物理驱动设备。该公司于 2025 年 4 月 22 日发布了其最新的视觉语言动作 (Vision Language Action, VLA) 模型 π0.5。
VLA 模型旨在结合视觉感知(看)、语言理解(听指令)和动作执行(做),使机器人能够根据指令在环境中完成任务。π0.5 是对其早期模型 π0(2025 年 2 月发布)的扩展。π0 是一个通用机器人策略模型,通过结合大规模多任务、多机器人数据收集和新的网络架构训练而成,展示了强大的灵巧性和通用性。
π0.5 的关键进步在于实现了“开放世界泛化” (open-world generalization)。这意味着该模型不仅能在训练过的环境中执行任务,还能在全新的、未曾见过的环境中理解指令并控制机器人完成任务。例如,π0.5 能够控制一个移动机械臂清理一个全新的厨房或卧室。这标志着 VLA 模型在适应性和鲁棒性方面迈出了重要一步,对于实现通用物理智能至关重要。Physical Intelligence 的工作代表了将大型模型的能力从数字世界迁移到物理世界的重要努力,旨在创造能够理解并与复杂、动态的现实环境互动的机器人。
2. 智能助手进化:从代码到生活
智能助手和 AI Agent 正在经历快速进化,其能力从辅助编码扩展到自动化更广泛的工作流和日常生活任务。
2.1 Microsoft Copilot:工作流自动化与体验升级
Microsoft 在其 Copilot 生态系统中持续加码,旨在将其打造为无处不在的智能助手。Copilot Studio 新增了 UI Agents 功能,这是一个重要的进步,因为它允许在没有预先构建 API 的情况下自动化桌面和 Web 工作流程,极大地扩展了 Copilot 的自动化能力范围。
Microsoft 365 Copilot 也迎来多项更新,包括由 AI 驱动的新搜索体验、新的内容创建流程、引入 Copilot 笔记本(一个用于探索和优化提示的界面)以及一个 Agent 商店。这个商店将提供各种预置功能的 Agent,例如扮演分析师或研究员角色的 Agent,用户可以直接调用它们来完成特定任务。
备受关注但此前曾宣布撤回的 Recall 功能再次确认即将推出。为回应隐私担忧,该功能已改为“选择启用”(opt-in),并且所有数据处理都将在本地设备上进行,不会发送到云端。Recall 功能旨在记录用户在 PC 上的活动,并通过 AI 实现强大的内容检索能力。
此外,Microsoft 搜索也在利用 NPU(神经处理单元)和 AI 来改进搜索功能,并推出了“点击执行”(Click to Act)功能,允许用户直接在屏幕上对选定的文本和图像执行总结、重写或复制粘贴等操作,进一步提升了信息处理的便捷性。这些更新共同指向 Microsoft 的目标:将 Copilot 深度集成到用户的工作流和日常操作中,提供更智能、更自动化的体验。
2.2 JetBrains JUNI:迈向虚拟初级开发者
JetBrains 推出了其更高级的智能编码助手 JUNI,于 2025 年 4 月 16 日向所有用户开放。JUNI 的定位超越了简单的代码补全或建议,旨在成为一个能够执行更复杂开发任务的“虚拟协作者”或“结对编程伙伴”,其能力类似于初级开发人员。
JUNI 深度集成在 JetBrains IDEs(初期支持 IntelliJ IDEA Ultimate, PyCharm Pro, WebStorm, GoLand)中,能够理解项目的结构、逻辑和代码关系。其核心能力包括:
- 任务理解与规划:JUNI 可以分析给定的开发任务,找到代码库中的相关位置,并提出一个执行计划供开发者审查。
- 代码生成与修改:在“代码模式”下,JUNI 可以编写新代码、修改现有代码,并支持跨多个文件的编辑。
- IDE 集成能力:利用 IDE 的能力进行语法和语义检查,确保代码质量和一致性。它还可以运行代码和测试,验证修改的正确性。
- 协作与问答:在“提问模式”下,开发者可以与 JUNI 讨论计划、提问、进行头脑风暴。
- 模型支持:JUNI 利用来自 Anthropic (Claude)、OpenAI (GPT) 和 Google (Gemini) 的大型语言模型来驱动其功能。
JUNI 作为 JetBrains AI 工具套件的一部分,现在包含在统一的 JetBrains AI 订阅中,该订阅提供了一个免费层级(包含无限代码补全、本地模型和基于额度的云 AI/Junie 使用)以及付费的 Pro 和 Ultimate 层级。与 GitHub Copilot 等工具相比,JUNI 的优势在于其与 JetBrains IDE 的深度集成,能够利用 IDE 对整个代码库的理解提供更上下文感知、更结构化的辅助,特别是在代码重构和遵循项目规范方面。JUNI 的推出标志着 AI 编码助手正从简单的建议工具向更具自主性和协作能力的开发伙伴演进。
2.3 Anthropic:标准化交互与 Agentic Coding 实践
Anthropic 公司在推动 AI Agent 技术发展方面,不仅关注模型本身,也着力于构建支撑 Agent 应用的基础设施和方法论。
该公司提出了模型上下文协议 (Model Context Protocol, MCP) 及其配套的 Python 库。MCP 于 2024 年末首次提出,并在 2025 年初获得了广泛关注和采用。它是一个开放的、基于 JSON-RPC 2.0 的标准协议,旨在统一 AI 应用(如聊天机器人、编码助手、Agent)与外部工具、数据源和系统交互的方式。MCP 定义了客户端(AI 应用)、服务器(工具/数据提供者)以及它们之间交互的“工具”(模型可调用的操作)和“资源”(模型可访问的数据)等核心概念。通过提供标准化的接口,MCP 极大地简化了 AI Agent 与外部环境的集成,提高了互操作性、开发效率和安全性。Anthropic 不仅发布了协议规范,还提供了 Python、TypeScript 等语言的 SDK 和 FastMCP 等简化库,以及 MCP Inspector 等测试工具,有力地推动了其生态发展。MCP 已获得 OpenAI、Google、Microsoft 等主要 AI 公司的采纳或支持,正迅速成为 Agent 与工具交互的事实标准。
除了协议层面的贡献,Anthropic 还于 2025 年 4 月 18 日发布了关于如何更好地使用其 Claude 模型进行 Agentic Coding(智能体编码)的最佳实践指南。该指南基于 Anthropic 内部使用其命令行工具 Claude Code 的经验,提出了一系列实用建议,旨在提高 AI 在软件开发中的效率和可靠性。关键实践包括:
- 利用
CLAUDE.md文件:在代码仓库中创建CLAUDE.md文件,用于记录项目特定的上下文信息(如常用命令、编码规范、测试流程等),Claude Code 会自动读取这些文件以更好地理解任务。 - 规划优先工作流:鼓励先让 Claude 阅读相关文件、生成计划,再进行迭代式的实现和验证。
- 测试驱动开发 (TDD):推荐使用 TDD 流程,让 Claude 先写测试、确认失败,再编写通过测试的代码。
- 使用子 Agent:对于复杂问题,建议指示 Claude 使用独立的子 Agent 来验证细节或进行探索,以分解任务并保持主 Agent 的上下文。
- 并行开发:利用 Git Worktrees 创建多个工作区,在不同终端中运行多个 Claude Code 实例,并行处理不同任务。
- 自动化与 Headless 模式:使用
claude -p命令在非交互模式下运行 Claude,将其集成到 CI/CD 管道、预提交钩子或自定义脚本中,用于自动化代码审查、问题分类等任务。
Anthropic 通过 MCP 协议标准化 Agent 的外部交互,并通过 Claude Code 最佳实践指导开发者如何有效利用 Agent 进行编码,双管齐下地推动着 Agentic AI 技术的落地和普及。
2.4 Bidence:开源多模态桌面 Agent
紧随 Agent 技术的发展趋势,Bidence(字节跳动)于 2025 年 4 月 18-21 日期间,开源了其多模态 Agent UI TARS 1.5。这是一个基于视觉语言模型构建的智能体,其独特之处在于能够直接与用户的桌面和浏览器环境进行交互。
UI-TARS 1.5 的核心是一个“原生 Agent 模型”,它整合了感知(通过实时解析屏幕截图理解 GUI 界面)、推理(采用基于强化学习的“先思后行”机制进行规划)、记忆和行动(生成鼠标点击、键盘输入等操作)能力。用户可以通过自然语言(中英文)指令,让 TARS 1.5 在 Windows、macOS、移动设备或 Web 环境中执行复杂任务,例如打开浏览器搜索信息、在社交媒体发帖、或在不同应用间迁移数据(如将 LibreOffice Calc 数据迁移到 Writer)。
作为多模态 Agent,UI-TARS 1.5 能够处理图像(屏幕截图)和文本(指令)输入。其 7B 参数版本(基于 Qwen2.5-VL 构建)已连同配套的桌面应用 Agent TARS(原名 UI-TARS-desktop)一起在 GitHub (Apache 2.0 许可) 和 Hugging Face 上开源。Agent TARS 提供了一个用户界面,用于协调 Agent 在浏览器和桌面上的操作,并集成了搜索、文件编辑、命令行以及 MCP 等工具支持。
UI-TARS 1.5 在多个 GUI 自动化和游戏基准测试中取得了 SOTA 成绩,超越了包括 Claude 和 OpenAI Operator 在内的模型。尽管存在被滥用(如绕过 CAPTCHA)、计算资源需求高和可能出现幻觉等局限性,但其开源发布为社区提供了一个强大的、能够直接与可视化界面交互的多模态 Agent 范例,有望推动 GUI 自动化和人机交互领域的发展。
2.5 Perplexity Assistant:强化移动端助手能力
AI 搜索领域的有力竞争者 Perplexity AI,也将其能力从网页端扩展到了移动端智能助手。该公司于 2025 年 4 月 23-25 日左右,在其 iOS 应用中正式推出了 Perplexity Assistant 的语音助手功能(此前已在 Android 端推出)。
Perplexity Assistant 的目标是提供比传统手机助手(如 Siri 或 Google Assistant)更强大、更具行动力的体验。它不仅能利用 Perplexity 强大的实时网络搜索能力回答问题,还能通过与 iPhone 的原生应用程序集成来执行具体任务。目前支持的功能包括:
- 媒体播放:通过 Apple Music 播放歌曲或播客。
- 邮件处理:在 Apple Mail 中起草邮件。
- 日程管理:在 Apple Calendar 中添加或查看会议/事件。
- 提醒设置:在 Apple Reminders 中创建提醒。
- 导航:通过 Apple Maps 获取路线。
- 其他应用交互:查找 YouTube 视频并在应用中打开,或通过 OpenTable 预订餐厅,通过 Uber 叫车。
用户反馈显示,Perplexity Assistant 在执行这些集成任务时,其对话理解和上下文保持能力通常优于 Siri,交互感觉更自然流畅。它还支持后台运行,并可通过小组件或快捷方式快速启动。
然而,受限于 iOS 系统的权限,Perplexity Assistant 无法执行某些 Siri 可以完成的任务,例如控制系统设置(手电筒、亮度、音量、勿扰模式)、设置闹钟或直接发送短信。其第三方应用集成目前也主要限于苹果原生应用,尽管 Perplexity 计划未来支持 Gmail 和 Google Calendar。尽管存在这些限制,Perplexity Assistant 的推出显示了 AI 搜索工具向更具行动能力的智能体演进的趋势,为用户提供了一个在特定任务上可能更优的移动助手选择。
3. 多模态融合:视听理解再上台阶
本周,多模态 AI 技术在视觉和听觉理解方面取得了显著进展,模型不仅能“看懂”图像和视频,还能结合听觉信息进行实时交互和翻译,进一步模糊了数字世界和物理世界之间的界限。
3.1 OpenAI O3/O4 mini 的地点识别与图像生成 API
OpenAI 最新的推理模型 o3 和 o4-mini(2025 年 4 月 16 日发布)在视觉感知方面能力突出。它们不仅能分析图像、图表和图形,还能将图像直接整合进推理过程。值得注意的是,这些模型具备了根据照片内容推断拍摄地点的潜力,展示了其对图像中地理和环境线索的深度理解能力。同时,OpenAI 的顶级图像生成模型 GPT image one 也已通过 API 开放,该模型在指令遵循和文本渲染方面优于 DALL-E,并支持图像编辑,让开发者能够集成更强大的可控图像生成能力。这两项进展结合,意味着 OpenAI 的模型既能深度理解视觉输入,又能高质量地生成和编辑视觉输出。
3.2 Google View 2 文本到视频生成
Google 的 Veo 2 模型(2025 年 4 月 15 日左右广泛可用)作为高质量的文本到视频生成工具,使用户能够通过简单的文本提示创建长达 8 秒、720p 分辨率的视频片段。Veo 2 强调生成视频的电影级真实感、物理一致性和流畅的角色运动,并支持多种视觉风格。它已集成到 Gemini API、AI Studio 和 Gemini 移动应用中,降低了高质量视频内容的创作门槛。Veo 2 的推出为内容创作者、营销人员和开发者提供了一个强大的工具,用于快速将创意转化为动态视觉内容。
3.3 xAI Grok 聊天机器人的视觉功能
xAI 为其 Grok 聊天机器人引入了 Grok Vision 功能(2025 年 4 月 22-23 日左右发布,首先在 iOS 上)。这项新功能允许 Grok 利用手机摄像头实时“看到”用户周围的世界,用户可以指向任何物体、标志或文档并进行提问。Grok Vision 能够实时处理视频流,提供快速(约 2.1 秒延迟)且准确的分析和回答,可用于物体识别、实时翻译、文档解读等场景。这一功能将 Grok 从纯文本交互扩展到了实时的、情境感知的视觉交互,使其在多模态助手领域更具竞争力。
3.4 Meta Perceptron LM 视频理解模型
Meta 于 2025 年 4 月 17 日发布了开放的视觉语言模型系列 Perception Language Model (PLM)。PLM 专注于复杂的视觉识别任务,特别是视频理解。为了提升视频理解能力,Meta 不仅构建了包含 1B、3B、8B 参数的 PLM 模型(基于 Perception Encoder 和 LLaMA 3),还专门收集并标注了 250 万个细粒度的视频问答和时空字幕样本,并推出了新的视频理解基准 PLM-VideoBench。这些工作旨在推动对视频内容进行更深入的分析,理解视频中的“什么、哪里、何时、如何”等细微信息。
3.5 Nvidia Eagle 2.5 VLM 长视频理解
Nvidia 在 2025 年 4 月 21-22 日发布的 Eagle 2.5 VLM 模型,专门针对长上下文多模态学习,尤其擅长长视频理解。这款 8B 参数的模型通过结合专门的长视频数据集 Eagle-Video-110K 和优化的训练策略(如 ADS、IAP),能够在处理数百帧视频输入时,达到与数十亿甚至数百亿参数模型相媲美的性能。这使得对长达数分钟甚至更长的视频进行深入问答和分析成为可能,突破了以往 VLM 主要处理短视频片段的限制。
3.6 Bidence UI TARS 1.5 多模态 Agent
Bidence(字节跳动)开源的 UI TARS 1.5 Agent(2025 年 4 月 18-21 日发布)是一个典型的交互式多模态 Agent。它基于视觉语言模型构建,核心能力在于理解视觉输入(屏幕截图)并根据自然语言指令执行 GUI 操作。它能够实时解析屏幕图像,识别按钮、文本框等元素,并生成相应的点击、输入等动作。这种将视觉感知与动作执行紧密结合的多模态能力,使其能够在各种桌面和 Web 环境中自动化复杂任务。
3.7 Ray-Ban Meta 智能眼镜的实时翻译
Meta 为其 Ray-Ban 智能眼镜全面推出了实时翻译功能(2025 年 4 月 23-24 日)。该功能利用眼镜的麦克风和扬声器,实时捕捉佩戴者听到的外语(目前支持英语、法语、意大利语、西班牙语互译),并将翻译结果通过扬声器播放给佩戴者。关键在于它支持离线语言包下载,即使没有网络连接也能使用。这项功能将智能眼镜从信息捕捉和显示设备,转变为强大的实时跨语言沟通工具,展示了可穿戴设备在融合听觉处理、语言理解和实时输出方面的潜力。
4. 开源生态与工具链:加速创新步伐
开源模型、框架和工具的持续涌现与迭代,正在不断降低 AI 开发门槛,加速技术创新和应用落地。本周,多个重要参与者在开源生态和工具链建设方面发布了新动态。
4.1 OpenAI 的开源计划与框架
根据用户查询信息,OpenAI 计划在近期(可能六月左右)发布一款性能强大的开源 AI 模型,并可能配备超长上下文窗口和调用闭源 API 的能力。虽然近期(4 月 18-25 日)的公开信息未直接确认此计划,但这一潜在举措若实现,将是 OpenAI 对抗日益激烈的开源竞争格局(如 Llama、Mistral、DeepSeek)的重要战略调整。此外,用户查询提到 OpenAI 推出了名为 Open Agent 的开源框架,利用双 LLM 协作提高代码质量。尽管近期官方发布中未明确提及名为“Open Agent”的特定框架,但 OpenAI 确实在 3 月发布了专注于创建多智能体工作流的轻量级 Python 框架 Agents SDK,该 SDK 强调追踪和护栏,并支持超过 100 种 LLM。这表明 OpenAI 正在为开发者提供构建更复杂、更可靠 Agent 应用的开源工具。
4.2 AI2 的持续开源贡献
艾伦人工智能研究所 (AI2) 坚定地践行其“真正开放”的理念,持续为开源社区贡献力量。他们不仅发布包括 OLMo、Tülu、Molmo 在内的模型家族(涵盖从小到大的各种规模),更重要的是同时开放训练数据、代码和评估框架,促进研究的可复现性。近期,AI2 于 2025 年 4 月 9 日推出了 OLMoTrace 工具,允许用户追溯 OLMo 模型(包括 1B、7B 等小模型)的输出到其训练数据,极大地提升了模型的透明度和可信度。AI2 还与 Google Cloud 合作,将其模型引入 Vertex AI,方便更广泛的开发者和研究者使用。AI2 的工作为开源 AI 树立了高标准。
4.3 Bidence 开源多模态 Agent UI TARS 1.5
Bidence(字节跳动)于 2025 年 4 月 18-21 日将其多模态 Agent UI TARS 1.5 的 7B 参数版本及相关桌面应用 Agent TARS 开源。该 Agent 基于视觉语言模型,能理解屏幕截图和自然语言指令,直接与桌面和浏览器 GUI 交互,执行点击、输入等操作。其采用 Apache 2.0 许可,代码和模型已在 GitHub 和 Hugging Face 上发布。这一开源项目为社区提供了一个强大的、可直接操作 GUI 的多模态 Agent 实例,有望激发在自动化、人机交互等领域的新应用和研究。
4.4 Google Gemma 的 QAT 技术普及
为解决大型开源模型部署困难的问题,Google 于 2025 年 4 月 18 日左右为其 Gemma 3 模型系列推出了量化感知训练 (QAT) 版本。QAT 技术在训练阶段就考虑量化影响,使得模型在压缩到低精度(如 int4)后仍能保持较高准确性。这使得原本需要高端硬件的大模型(如 Gemma 3 27B)现在可以在内存较小的消费级 GPU(如 RTX 3090)或笔记本电脑 GPU 上本地运行。Google 通过 Ollama、LM Studio 等流行工具提供了便捷的 QAT 模型集成方式,极大地降低了开发者和研究人员使用先进开源模型的门槛。
4.5 Anthropic 的模型上下文协议 (MCP)
Anthropic 提出的模型上下文协议 (MCP) 及其 Python 库正迅速成为 AI Agent 与外部工具和数据交互的标准。MCP 是一个开放的、基于 JSON-RPC 的协议,旨在提供统一的接口,取代过去碎片化的集成方式。自 2024 年底推出以来,凭借其开放性、Anthropic 提供的 SDK(Python, TypeScript 等)和工具(如 FastMCP, MCP Inspector),以及主要 AI 公司(OpenAI, Google, Microsoft)的采纳,MCP 生态系统迅速发展,涌现出大量社区开发的连接器。MCP 的普及为构建可互操作、可扩展的 Agent 系统奠定了基础。
4.6 Adobe Firefly 的模型选择扩展
Adobe 在 2025 年 4 月 24 日的 Firefly 更新中,将其平台定位从展示自有模型转变为一个更广泛的创意 AI 中心。新的 Firefly Web 应用允许用户在 Adobe 自家的 Firefly 模型(如 Image Model 4/Ultra, Video Model)和来自合作伙伴的模型(如 OpenAI 的 GPT 图像生成、Google 的 Imagen 3 和 Veo 2)之间进行选择。未来还计划集成 Luma、Pika、Runway、fal.ai 等更多模型。虽然未明确直接支持选择特定的开源模型,但通过 fal.ai 等合作伙伴可能间接引入。这一策略让创作者可以在熟悉的 Adobe 环境中灵活选用最适合其需求的 AI 生成工具,增强了平台的吸引力。
4.7 Google Sheets 的 AI 公式集成
Google Sheets 引入了 =AI() 公式(约 2025 年 4 月 16 日),将 Gemini AI 的能力直接嵌入到电子表格单元格中。用户可以使用自然语言提示执行各种 AI 任务,如文本摘要、情感分析、数据分类、内容生成(如博客大纲、产品描述)等,而无需编写复杂脚本或使用外部工具。例如,=AI(“Summarise this information”, A2) 即可对 A2 单元格内容进行摘要。此功能需要用户启用 Gemini(通过 Workspace Labs 或 Google One AI Premium 订阅)。这一集成大大简化了在电子表格中利用 AI 处理和分析数据的流程,提高了工作效率。
4.8 LTX Studio 集成 Google Veo 2
AI 视频创作平台 LTX Studio 在其服务中集成了 Google 最新的 Veo 2 视频生成模型。在其定价页面上,Standard 和 Pro 计划明确列出了包含“Veo 2 video generation model”。LTX Studio 提供了一个从概念到交付的 AI 驱动视觉叙事平台,功能包括 AI 剧本编写、故事板生成、场景创建、角色一致性、高级摄像机控制、协作编辑和项目推介材料生成。通过集成 Veo 2,LTX Studio 为其用户(特别是需要商业许可的标准和专业用户)提供了利用 Google 先进视频生成技术进行创作的途径,并且其定价方案(如 Standard 年付 $28/月)相对于直接使用 API 可能提供了更具成本效益或集成化的选择。
5. 应用场景拓展:艺术、电商与生活服务
AI 技术的进步正不断渗透到新的应用场景,从内容创作、电子商务到日常沟通,都涌现出新的 AI 驱动功能和体验。
5.1 YouTube AI 视频摘要与搜索高亮
YouTube 正在测试利用 AI 改进视频发现和理解的方式。一项实验性功能是 AI Overviews,于 2025 年 4 月 25 日左右向部分美国 YouTube Premium 用户推出。当用户进行某些特定类型的搜索(目前主要集中在购物和旅行相关主题)时,搜索结果顶部会展示一个由 AI 精选的视频片段轮播(carousel)。这些片段旨在直接回答用户的查询或高亮显示视频中最相关的部分,帮助用户更快地发现有用信息,而无需观看完整视频。这类似于 Google 搜索中已有的“关键时刻”功能,但更侧重于 AI 驱动的内容提炼和呈现。这项测试表明 YouTube 正积极探索利用 AI(可能基于 Google 的 Gemini 模型)来提升其平台上的搜索效率和内容可发现性。
5.2 Adobe Firefly 与 Krea AI 的艺术创作新功能
在 AI 艺术创作领域,工具平台也在不断进化。Adobe Firefly 在 2025 年 4 月 24 日的更新中,推出了新的 Firefly Image Model 4 和 4 Ultra,提升了图像生成的真实感和细节控制。更重要的是,Firefly 平台现在允许用户选择使用 Adobe 自有模型或来自 Google (Imagen 3, Veo 2)、OpenAI (GPT image gen) 等合作伙伴的模型,未来还将支持更多第三方模型。此外,Adobe 还推出了 Firefly Boards(公测版),一个 AI 优先的协作式情绪板和概念探索工具。Krea AI 则展示了其在聊天式图像编辑和 3D 环境生成方面的能力。用户可以通过自然语言聊天与 Krea 交互,生成和编辑图像(如将自拍变油画、更换物体颜色),甚至可以将 2D 图像或文本提示转化为可交互的 3D 对象或模型。Krea 还集成了来自多个提供商(Hailuo, Luma, Runway, Pika, Kling)的视频模型,并提供了摄像机控制功能。这些更新显示出 AI 艺术工具正朝着更集成、更灵活、更具交互性和多维度(从 2D 到 3D)的方向发展。
5.3 Tencent Hunyuan 3D 2.5 高质量 3D 模型生成
腾讯于 2025 年 4 月 23 日发布了其自研 AI 模型 Hunyuan 3D 的 v2.5 版本。此次升级显著提升了 3D 模型的生成精度,旨在将 3D 生成带入超高清时代。Hunyuan 3D v2.5 的模型参数量从 10 亿增加到 100 亿,有效几何分辨率提升至 1024,生成的模型表面更光滑、边缘更锐利、细节更丰富。它支持生成 4K 高清纹理和精细的凹凸贴图,并首次实现了 PBR(基于物理的渲染)模型的多视图输入生成,使光照和反射效果更逼真。该模型优化了骨骼蒙皮系统,提高了 3D 动画生成效率,并提供了文本到 3D、图像到 3D 等专业流程模板。腾讯将 Hunyuan 3D AI 创作引擎的免费日生成额度翻倍至 20 次,并通过腾讯云开放了生成 API。这一进展降低了高质量 3D 内容的创作门槛,有望在游戏开发、电商广告、工业制造等领域得到应用。
5.4 Character AI 的 Avatar Effects 视频生成
流行的 AI 角色聊天平台 Character.AI 于 2025 年 4 月 21 日宣布了名为 AvatarFX 的新视频生成功能。这项技术允许用户将静态的 2D 图像(无论是照片、绘画还是卡通形象)转化为能够说话、唱歌、表达情感的逼真视频。AvatarFX 基于流式扩散模型构建,结合了 Character.AI 自有的 TTS 语音模型,能够生成具有良好时间一致性(面部、手部、身体动作)的长视频。其特点在于能够从用户提供的现有图像生成视频,提供了高度的可控性,并且能够处理从写实人像到神话生物甚至无生命物体等多种风格。该功能目前处于测试阶段,计划在未来几个月内整合到 Character.AI 产品中,CAI+ 订阅用户将优先获得访问权限。这标志着 Character.AI 从纯文本聊天向更具表现力的多模态交互迈进,有望催生出会说话、会表演的 AI 角色新体验。
5.5 Argil AI 虚拟形象产品展示赋能电子商务
AI 视频生成平台 Argil 正在利用其 AI 虚拟形象(Avatar)技术,特别是在产品展示和电子商务领域拓展应用。Argil 允许用户创建超逼真的 AI 克隆(基于用户上传的短视频)或使用预设形象。其最新更新(2025 年)包括更逼真的 v2 化身、Agentic Workflows(AI 代理可自动规划和制作视频)、与 Make.com 等工具的集成、新的 Vivid Image 模型以及多语言支持。针对电商场景,Argil 推出了“产品展示”(Product Showcase)功能,用户可以设计虚拟形象,并让其在各种场景(如海滩、工作室、商场)中做出特定动作,包括手持并展示用户的实际产品。结合其快速生成多版本视频(不同背景、B-roll、脚本、语言)的能力,这使得品牌和商家能够高效地为不同市场和受众群体创建定制化的、由虚拟形象主导的产品营销视频,极大地降低了传统视频制作的成本和时间。
5.6 Tavis 新型唇语同步模型 Hummingbird-0
AI 视频研究公司 Tavus 于 2025 年 4 月 24 日发布了其新型零样本(zero-shot)唇语同步模型 Hummingbird-0 的研究预览版。该模型源自其旗舰级 Phoenix-3 数字人模型的部分组件。Hummingbird-0 的核心能力是,仅需一段参考视频和任意音轨,就能即时修改视频中人物的唇部运动,使其与新的音频内容精准同步,而无需针对特定人物进行模型训练或手动调整。该模型旨在保持人物原有的身份特征、面部表情和视觉质量。相比现有唇语同步技术,Hummingbird-0 在视觉质量、同步准确性和身份保持方面表现出 SOTA 性能(如 Arcface 得分 0.84,优于竞品 7%)。其应用场景广泛,包括高质量的用户生成内容(如让 meme 开口说话)、影视后期配音修改、大规模个性化视频营销内容的生成,以及为 Sora、Veo 等 AI 生成的无声视频添加对话。该模型已通过 Tavus API 和 FAL.ai 模型库提供。
5.7 Descript 测试 AI 聊天式视频编辑 Agent
流行的音视频编辑平台 Descript 正在测试一项基于 AI Agent 的视频编辑新功能。这个被称为“Underlord”或“AI co-editor”的智能 Agent 被描述为“视频领域的 Cursor”,旨在通过自然语言聊天交互来执行编辑任务。用户可以直接告诉 Agent 想要完成什么,例如“剪辑一个产品演示”、“制作一个头像主持的解说视频”、“把网络研讨会剪辑成宣传片”、“去除填充词和长时间停顿”、“将这个演示翻译成西班牙语”、“为所有媒体占位符添加素材”等。这个 Agent 不仅仅是执行命令,它还能运用推理和视频编辑专业知识来改进视频的视听效果,甚至可以主动提出建议。它深度集成在 Descript 平台中,了解平台的所有功能,可以代替用户执行复杂的操作。该功能目前处于早期测试阶段,Descript 正在招募用户参与测试并提供反馈。这种聊天式的交互方式有望进一步降低视频编辑的门槛,让用户通过对话就能完成从简单剪辑到复杂修改的各种任务。
5.8 Ray-Ban Meta 眼镜实时翻译提升沟通便利性
如前所述(3.7),Meta 为其 Ray-Ban 智能眼镜全面推出的实时翻译功能,极大地提升了跨语言沟通的便利性。该功能支持英语、法语、意大利语、西班牙语之间的实时互译,并将翻译结果直接通过眼镜播放。支持离线语言包是其关键优势,确保在旅行等网络不稳定的环境下也能使用。这项功能将智能眼镜的应用场景从信息获取和记录扩展到了实时的、无缝的跨文化交流,为旅行者、多语言家庭或国际商务人士提供了极大的便利,是多模态 AI 在生活服务领域的一个重要落地应用。
6. 伦理考量与政策风向
随着 AI 能力的飞速发展,相关的伦理风险和社会影响日益凸显,政策制定者和行业领导者也在积极应对,探讨规范、安全和未来方向。
6.1 Anthropic 关注广泛危害与模型可解释性
AI 安全领域的领军者 Anthropic 近期发布了多份报告和观点,强调对 AI 风险的全面关注和可解释性的重要性。在其 2025 年 4 月 21 日发布的《我们理解和应对 AI 危害的方法》报告中,Anthropic 提出需要关注更广泛的 AI 危害维度,包括对社会系统和个人自主权的影响,并根据可能性、规模、受影响人群等因素进行评估。报告指出,通过这种结构化方法,他们能够更好地平衡模型的有用性和安全性。例如,在 Claude 3.7 Sonnet 模型中,通过改进对模糊提示的处理,使其在保持对有害内容强力防护的同时,不必要地拒绝无害提示的比例降低了 45%。
另一份于 4 月 23 日发布的《检测和应对 Claude 的恶意使用:2025 年 3 月》报告则披露了 Claude 被恶意使用的具体案例研究。案例包括:一个专业的“影响力即服务”行动,利用 Claude 不仅生成内容,还协调指挥上百个社交媒体机器人账号进行政治宣传;一个复杂的威胁行为者试图利用 Claude 构建工具,以进行凭证填充攻击,入侵联网安全摄像头;针对东欧求职者的招聘欺诈活动,利用 Claude 润色欺诈信息,使其看起来更可信;以及一个技术能力有限的新手利用 Claude 开发恶意软件。这些案例揭示了 AI 可能被用于更复杂、更隐蔽的滥用方式,并可能降低网络犯罪的门槛。
Anthropic CEO Dario Amodei 在同期(约 2025 年 4 月 24-25 日)发表的文章和评论中,着重强调了 AI 可解释性的紧迫性。他指出,目前业界对大型 AI 模型如何工作的理解仍然不足,这带来了巨大的风险。他呼吁投入更多资源研究“机制可解释性”,目标是在 5 到 10 年内,甚至更早(他设定了 2027 年的目标),开发出能够揭示模型内部工作原理(如同“AI 的 MRI”)的技术,以便识别和预防潜在的有害行为,如欺骗或失控。他认为,在 AI 系统变得更加自主和强大之前,理解它们是确保安全和对齐人类价值观的关键。
6.2 互联网恶意 Bot 流量激增,AI 成推手
根据 Thales 发布的《2025 年 Imperva 不良 Bot 报告》(约 2025 年 4 月 15-21 日发布),互联网上的自动化流量(Bot 流量)首次超过了人类活动流量,占总流量的 51%。其中,恶意 Bot 流量占比高达 37%,连续第六年增长。报告明确指出,易于获取的 AI 工具是这一增长的重要推手。AI 降低了创建和部署恶意 Bot 的门槛,使得技术水平不高的攻击者也能发起大规模攻击,导致“简单”但量大的 Bot 攻击显著增加(占所有 Bot 攻击的 45%)。同时,AI 也被用于增强更复杂 Bot 的规避技术,使其更难被检测。API 成为 Bot 攻击的主要目标(44% 的高级 Bot 流量针对 API),而账户接管(ATO)攻击也大幅增加了 40%。这份报告揭示了 AI 在加剧网络安全威胁方面的负面作用,对企业和组织的网络防御提出了更高要求。
6.3 奥斯卡对 AI 辅助电影持开放态度,强调人类核心作用
美国电影艺术与科学学院(AMPAS)在 2025 年 4 月 22-23 日左右更新了第 98 届奥斯卡奖(2026 年颁发)的规则,其中明确了对使用生成式 AI 技术的电影的立场。根据新规,在电影制作中使用 AI 工具“既不会帮助也不会损害”影片获得提名的机会。这意味着 AI 辅助制作的电影有资格参与奥斯卡奖的角逐。然而,规则同时强调,在评选获奖者时,学院及其各分支机构将“考虑人类在创意作者身份核心的程度”。这一立场表明,奥斯卡承认 AI 作为一种新的创作工具的潜力,但仍然坚持人类创造力在电影艺术中的核心地位和最终决定权。这一规则的明确化,为电影行业在拥抱 AI 技术的同时,保留了对人类艺术贡献的重视,也可能对其他创意产业的奖项评定产生影响。
6.4 美国总统发布行政命令,提升 AI 素养为国家优先事项
2025 年 4 月 23 日,美国总统特朗普签署了一项名为《为美国青年推进人工智能教育》的行政命令。该命令旨在将 AI 素养和熟练程度的提升确立为国家优先事项,以确保美国在全球 AI 革命中保持领先地位。命令的主要措施包括:
- 成立白宫 AI 教育工作组:负责协调联邦政府在 AI 教育方面的努力。
- 整合 AI 教育资源:指示联邦机构在 90-180 天内识别现有资源,并开发新的 AI 培训材料,用于 K-12 教育体系。
- 教师培训:要求教育部在 120 天内优先利用现有拨款计划支持教师的 AI 培训,涵盖基础概念、教学应用(如减少行政负担、改进评估)等方面。
- 课程与标准:推动在高中开设 AI 课程,并鼓励州和地方劳动力发展委员会将 AI 技能纳入培训和认证框架。
- 公私合作:鼓励学校、政府和科技公司建立伙伴关系,共同开发课程和资源。
- 激励与推广:设立“总统人工智能挑战赛”,以表彰学生和教育者在 AI 领域的成就。该行政命令将 AI 教育提升到国家战略层面,旨在通过自上而下的推动,系统性地在美国各级教育中普及 AI 知识和技能,培养未来的 AI 人才和具备 AI 素养的公民。
6.5 DeepMind CEO 谈 AI 自我意识:理解“自我”与“他人”或为开端
Google DeepMind CEO Demis Hassabis 在近期(约 2025 年 4 月 20-25 日)的采访中谈及了关于 AI 意识和自我意识的问题。他明确表示,当前的人工智能系统“在任何意义上都不具备感觉、自我意识或意识”。他认为,尽管 AI 在能力上取得了巨大进步(他预测 AGI 可能在 5-10 年内出现),但它们仍然缺乏真正的想象力或提出全新假设的能力,更像是人类现有知识的平均体现。然而,Hassabis 并不排除未来 AI 系统可能发展出某种形式的自我意识的可能性。他认为,让系统理解“自我”(self)和“他人”(other)等概念,可能是通往更高级认知能力(包括潜在的自我意识)的第一步。他强调,当前 AI 的学习方式(通过数据驱动而非显式编程)可能导致意想不到的能力涌现,因此理解和引导 AI 的发展至关重要。他主张在 AI 达到自我意识门槛之前,应优先利用 AI 推动神经科学等领域的发展,以加深我们对智能和意识本身的理解。同时,他重申了将人类价值观和伦理(如同教育孩子一样)灌输给 AI 系统的重要性,以确保其安全、有用并与人类社会保持一致。
6.6 强化学习先驱探索利用数据流进行模型持续学习
强化学习 (Reinforcement Learning, RL) 作为一种让模型通过与环境交互和接收反馈(奖励)来学习决策策略的方法,正被越来越多地用于提升大型语言模型的推理等能力。近期研究趋势显示,研究者们正在探索如何让 RL 模型更有效地利用持续不断的数据流进行学习和适应,尤其是在需要实时信息的场景下。例如,一篇 2025 年 4 月发表的论文提出了 SEARCH-R1 框架,通过 RL 让 LLM 学会自主地在推理过程中实时调用搜索引擎(数据流),获取外部知识来辅助决策,并优化了 RL 在这种搜索-推理结合场景下的稳定性。另一篇 4 月的论文则探讨了在实时大数据流处理中,利用 RL 动态调整数据采样率和过滤标准,以适应数据流不断变化的特性,从而提高处理效率和数据相关性。还有研究关注在实时数据流中使用 RL 动态调整处理窗口大小和聚合方法,以优化延迟和准确性。这些研究方向体现了强化学习领域的一个重要趋势:从基于静态数据集的训练,转向利用动态、连续的数据流进行模型的持续学习和自适应优化,这对于构建能够在真实世界中不断演进和保持最新状态的 AI 系统至关重要。这与强化学习奠基人 Richard Sutton 和 Andrew Barto 在其经典著作中强调的持续学习和与环境交互的思想一脉相承。
7. 算力基石与行业动态
AI 的发展离不开强大的算力支持和活跃的产业生态。本周,在 GPU 硬件、机器人市场以及模型评测等方面均有值得关注的动态。
7.1 中国 GPU 制造商(华为)高性能 GPU 蓄势待发
据报道(约 2025 年 4 月 21 日),中国科技巨头华为准备开始大规模出货其最新研发的高性能 AI 芯片 Ascend 910C。这款芯片被视为对标 Nvidia H100 的产品,旨在为中国本土 AI 公司提供强大的算力支持,以应对美国对高端 AI 芯片(如 H100 甚至 H20)日益收紧的出口管制。报道称,910C 通过先进的集成技术将两个 910B 处理器封装在一起,实现了计算能力和内存容量的翻倍,并进行了其他改进。部分关键客户据称已收到少量发货,预计大规模出货将在未来几个月内(可能下月开始)进行。在中国 AI 公司急需 Nvidia H20 等芯片替代品的背景下,华为 Ascend 910C 的量产和性能表现,将对中国 AI 算力自主化进程和全球 GPU 市场格局产生重要影响。
7.2 中国人形机器人市场预计将大幅增长
中国的人形机器人产业正迎来快速发展期,市场规模预计将显著增长。根据 Leaderobot 等机构联合发布的报告(约 2025 年 4 月 16-18 日发布),预计 2025 年中国人形机器人市场规模将达到 82.4 亿人民币(约 11.4 亿美元),占全球市场近一半。报告预测,到 2030 年,中国在包含人形机器人的“具身智能”市场规模可能达到 1038 亿人民币(约 142.4 亿美元),占全球近 45%。另一份市场研究报告(MRFR)预测,中国人形机器人市场将从 2024 年的 1.323 亿美元增长到 2035 年的 20.84 亿美元,年复合增长率达 28.48%。增长的驱动力包括制造业对自动化效率提升的需求、人口老龄化带来的医疗和陪护需求、以及政府政策的大力支持(如“中国制造 2025”计划、地方政府补贴等)。中国在机器人领域的长期投入、完整的供应链和制造成本优势,以及活跃的初创企业融资(仅 2025 年前两个月就融资 2.76 亿美元),都为人形机器人的大规模商业化奠定了基础,预计将从工业应用逐步扩展到商业服务甚至家庭场景。
7.3 Liner AI Deep Research 用户量持续增长
专注于提供可信赖 AI 搜索结果的 Liner,其用户基数持续扩大。根据 2025 年 1 月和 4 月的报道,Liner 的全球用户已超过 1000 万。Liner 定位为面向学生和研究人员的 AI 搜索引擎,通过结合多种 AI 模型(来自 OpenAI, Google, Meta 等)和自 2015 年积累的用户标注数据,提供带有可靠来源引用的精准答案。其核心功能包括 AI 驱动的搜索、网页/PDF/视频/图像内容高亮与标注、多格式文件处理和团队协作等。Liner 的 Deep Research 功能(现已向更多用户开放,并提供由 o4-mini 驱动的轻量版)允许进行更深入的、基于多源验证的探索。超过 90% 的用户是学生,遍布全球多所知名大学。Liner 的增长反映了在信息爆炸和 AI 生成内容泛滥的时代,用户对可信、高效、具备溯源能力的 AI 信息获取工具的强烈需求。
7.4 LLM 排行榜更新:OpenAI/Google 领先,Deepseek/Kimi 表现亮眼
根据近期的 LLM 排行榜(如 LMSys Chatbot Arena,数据截至 2025 年 3-4 月)更新,OpenAI 和 Google 的模型在综合性能,尤其是在英语和代码能力方面,仍然占据主导地位。Chatbot Arena 排行榜显示,Google 的 Gemini 2.5 Pro、xAI 的 Grok 3 系列、OpenAI 的 GPT-4.5 Preview 和 Gemini 2.0 Flash 等模型位居前列,Elo 分数较高。OpenAI 新发布的 o3 模型在 Arena-Hard-Auto 等基准测试中表现突出,尤其在编码和推理任务上得分很高。
与此同时,开源模型和中国模型也展现出强大的竞争力。DeepSeek 的模型表现尤为出色,其最新的 DeepSeek V3 (0324 版本) 和推理优化模型 DeepSeek-R1 在多个基准测试中(如 MMLU-Pro, AIME, LiveCodeBench, SWE Bench)取得了优异成绩,性能被认为可与顶级闭源模型媲美。DeepSeek V3 作为一个拥有 671B 总参数的 MoE 模型,在保持高性能的同时注重降低训练成本。
来自中国 Moonshot AI 的 Kimi k1.5 模型也获得了积极的用户反馈和评测结果。Kimi k1.5 是一个开源的多模态模型,拥有 128K 的上下文窗口,在数学、编码和视觉等多项基准测试中表现优异,据称在某些方面超越了 OpenAI o1 和 Qwen 模型。用户反馈其在处理长文本、多文件分析和实时网页搜索方面能力突出,且完全免费开放使用。这些模型的崛起显示了开源社区和中国 AI 力量在全球 LLM 竞争格局中的重要性日益提升。
总而言之:AI 加速演进,智能边界持续拓展
过去一周(2025 年 4 月 18 日至 25 日),人工智能领域再次上演了一场精彩纷呈的技术盛宴,从基础模型的迭代升级到智能应用的遍地开花,再到伦理规范的深入探讨,无不展现出 AI 技术加速演进、智能边界持续拓展的蓬勃态势。各大科技巨头与新兴力量竞相发力,推动着 AI 在理解、生成、交互和应用等多个维度迈向新的高度。
模型层面,性能、效率与开放性成为竞争焦点。OpenAI 推出了性能更强的推理模型 o3 和兼具效率与能力的 o4-mini,显著提升了模型在编码、数学、科学及视觉感知等方面的表现,并具备了根据图像推断地理位置等高级多模态能力。其顶级图像生成模型 GPT image one 也通过 API 开放,提供了更强的可控性。更引人注目的是 OpenAI 计划重返开源领域,预示着可能发布一款性能超越现有开源模型、拥有超长上下文窗口的重磅产品,这无疑将对开源生态产生深远影响。Google 则在视频生成领域取得突破,其 Veo 2 模型已广泛集成至 Gemini API 和应用中,以高保真度和物理一致性为用户提供强大的文本/图像到视频创作工具。同时,Google 通过为 Gemma 3 模型引入量化感知训练 (QAT) 技术,大幅降低了大型开源模型在消费级硬件上的运行门槛,推动了 AI 的普及化。xAI 的 Grok 3 和 Grok 3 Mini 凭借出色的基准测试成绩和极具竞争力的 API 定价,在性价比上向对手发起挑战,其新增的 Grok Vision 功能更赋予了聊天机器人实时感知物理世界的能力。Meta 则持续深耕视觉理解和开放研究,发布了专注于视频理解的 Perception LM 模型系列、配套的大规模数据集和基准测试,以及用于 3D 物体定位的 Locate 3D 模型 和测试 AI 协作能力的 Collaborative Reasoner 框架。其 WebSSL 项目则证明了在无需语言监督的情况下,大规模视觉自监督学习也能取得优异的多模态推理效果。中国公司 Bidence(字节跳动)推出的 Seaweed-7B 视频模型以其高性价比和卓越性能在排行榜上崭露头角。Nvidia 的 Eagle 2.5 VLM 则展示了在长视频理解这一难点上的突破,用较小模型实现了与巨头匹敌的性能。此外,以 Mamba 层替代部分自注意力层的混合模型架构(如 Nvidia Nemotron-H)也因其在速度和长上下文处理上的潜力而受到关注。Physical Intelligence 的 π0.5 VLA 模型则代表了将 AI 通用能力赋予物理机器人、实现开放世界泛化的前沿探索。
智能助手与 Agent 技术加速进化,从辅助工具迈向协作伙伴。Microsoft Copilot Studio 的 UI Agents 功能实现了无需 API 的桌面与 Web 工作流自动化,而 M365 Copilot 则通过新增 AI 搜索、Agent 商店等功能,进一步融入用户工作流。JetBrains 推出的 JUNI 编码助手,定位为“虚拟初级开发者”,能够理解项目、提出计划、编写并测试代码,展现了 AI 从代码建议向更复杂开发任务承担者的转变。Anthropic 在 Agent 生态建设上双管齐下:一方面提出模型上下文协议 (MCP) 并提供 Python 等 SDK,旨在标准化 Agent 与外部工具、数据的交互,该协议已获业界广泛采纳,成为构建互操作 Agent 生态的关键基础设施;另一方面发布 Claude Agentic Coding 最佳实践指南,指导开发者如何有效利用 Agent 进行规划、测试驱动开发、并行处理等复杂编码任务。Bidence(字节跳动)开源的多模态 Agent UI TARS 1.5,则展示了 Agent 直接通过视觉理解与桌面/浏览器 GUI 交互的能力,为自动化开辟了新途径。Perplexity 则将其 AI 搜索能力扩展至移动端,其 iOS Assistant 通过集成原生应用,实现了播放媒体、起草邮件、管理日程等功能,直接挑战 Siri 等传统手机助手。
多模态融合走向深入,视听结合的应用场景日益丰富。除了模型层面的视觉理解(如 OpenAI 的地点识别、Meta 的视频分析、Nvidia 的长视频处理)和生成(如 Google Veo 2、OpenAI GPT image one API)能力的提升,以及 Agent 的多模态交互(如 Grok Vision、TARS 1.5),本周还见证了更多视听融合的应用落地。Ray-Ban Meta 智能眼镜全面推出的实时翻译功能,支持离线语言包,将可穿戴设备变成了强大的跨语言沟通工具,是听觉处理与实时翻译结合的典范。Character.AI 的 Avatar Effects 功能旨在将静态图像转化为能说话、表演的动态视频化身。Tavis 推出的 Hummingbird-0 唇语同步模型,能够让视频中的人物口型与新的音轨精准匹配,为视频配音和本地化带来革新。这些进展表明,AI 正从单一模态处理向多模态信息的综合理解、生成和交互加速迈进。
开源生态持续繁荣,工具链不断完善。开源模型方面,除了 OpenAI 的潜在计划,AI2 继续发布完全开放的模型系列并推出 OLMoTrace 提升透明度,Bidence 开源了强大的 UI TARS 1.5 Agent,Google 则通过 Gemma QAT 技术让高性能开源模型更易于在本地部署。工具链层面,Anthropic 的 MCP 协议及其 Python 库成为 Agent 工具交互的标准,Adobe Firefly 平台开放接入第三方模型,Google Sheets 集成=AI()公式简化表格 AI 应用,LTX Studio 等创作平台也积极集成最新的 AI 模型(如 Veo 2)。这些开源模型和工具的涌现,共同构建了一个充满活力的生态系统,为开发者提供了更多选择,加速了 AI 技术的创新和应用。
应用场景加速拓展,渗透创意、电商与生活服务。AI 的应用边界不断拓宽。内容平台方面,YouTube 测试 AI 视频摘要,以片段轮播形式优化搜索体验。创意工具领域,Adobe Firefly 和 Krea AI 等平台推出模型选择、聊天式图像编辑、3D 环境生成等新功能。3D 内容生成方面,腾讯发布了更高精度的 Hunyuan 3D 2.5 模型。虚拟形象和角色互动方面,Character AI 推出 Avatar Effects 视频生成,Argil 则利用 AI 虚拟形象进行产品展示,赋能电子商务。音视频处理方面,Tavis 的唇语同步技术 和 Descript 的 AI 聊天式视频编辑 Agent 提升了后期制作效率。生活服务领域,Ray-Ban Meta 眼镜的实时翻译功能提升了跨语言沟通的便利性。
伦理考量与政策引导同步加强。AI 技术的快速发展伴随着对其潜在风险和社会影响的日益关切。Anthropic 发布报告,强调需关注更广泛的 AI 危害,并分享了 Claude 被恶意用于影响力行动、凭证填充、招聘欺诈和恶意软件开发的案例研究,其 CEO Dario Amodei 则疾呼提升 AI 可解释性的紧迫性。网络安全报告显示,恶意 Bot 流量激增,AI 成为重要推手,加剧了网络风险。政策层面,美国电影艺术与科学学院对 AI 辅助电影参与奥斯卡持开放态度,但强调人类的核心创作作用。美国总统特朗普签署行政命令,将提升 AI 素养列为国家优先事项,推动 AI 教育在美国 K-12 体系的普及。DeepMind CEO Demis Hassabis 对 AI 意识问题发表看法,认为当前 AI 尚无自我意识,但理解“自我”与“他人”可能是其发展方向,并强调伦理引导的重要性。强化学习领域也在探索利用持续数据流进行模型学习,以应对动态环境。
算力基石稳固,行业格局动态演变。AI 的发展离不开硬件支撑。中国 GPU 制造商华为准备出货其对标 Nvidia H100 的高性能 AI 芯片 Ascend 910C,以满足国内巨大的算力需求。同时,中国人形机器人市场展现出强劲的增长预期,预计将在未来几年占据全球重要份额,这得益于技术进步、应用需求和政策支持。AI 应用层面,Liner AI 等专注于可信信息获取的工具用户量持续增长,反映了市场对高质量 AI 应用的需求。LLM 排行榜显示,虽然 OpenAI 和 Google 的模型依旧领先,但 DeepSeek V3 和 Moonshot AI 的 Kimi k1.5 等开源及中国模型凭借优异性能和用户反馈,正强势崛起,挑战现有格局。
综上所述,本周 AI 领域呈现出全方位、多层次的快速发展态势。基础模型在追求更高性能的同时,也更加注重效率、多模态能力和开放性。智能体技术从概念走向实践,在编码、自动化和移动端应用中不断进化。多模态融合深入发展,视听结合的应用场景日益丰富。开源生态持续注入活力,标准化工具和协议加速了创新步伐。AI 的应用范围已广泛渗透到创意、商业和生活的方方面面。与此同时,对 AI 伦理、安全和治理的关注也提升到新的高度,政策引导和行业自律同步加强。硬件基础和市场格局亦在动态演变中。未来一周,我们有理由期待 AI 在这些方向上继续带来新的惊喜与突破。

留下评论