模型竞技场:新秀登场,巨头升级
- OpenAI的顶级图像生成模型GPT image one现已通过API开放,开发者可根据需求选择不同分辨率和价格方案。其O3 和 O4 mini 模型展现出能够根据照片准确识别拍摄地点的能力. OpenAI还计划在六月左右发布一款开源AI模型,据称性能将超越Meta和Deepseek的同类产品,并可能拥有超过1000万token的上下文窗口,甚至可能具备调用OpenAI闭源模型API的能力。此外,OpenAI还推出了轻量级的深度研究版本,由O4 Mini驱动,旨在提高Plus、Team和Pro用户的速率限制,并在免费计划中开放了原版深度研究功能,每月可使用五次至5月25日。
- Google发布了高质量逼真的文本到视频生成模型 View 2,已在Gemini API、AI Studio和移动应用中上线。其Gemini 2.5 Flash 预览版作为混合推理模型,在多个基准测试中表现优异,尤其在STEM领域,用户还可控制推理预算。Google还在Gemma 模型中引入了量化感知训练 (QAT) 技术,使其在低精度量化后仍能保持良好准确性.
- xAI发布了其旗舰AI模型Grok 3,并推出了Grok 3 Mini API,基准测试显示其在多方面优于其他竞争模型且价格更低。此外,Grok 聊天机器人新增了视觉功能。
- Meta发布了拥有80亿参数的开放视觉语言模型Perceptron LM,专注于视频理解. 同时推出了用于精确对象理解的Locate 3D和测试AI协同能力的Collaborative Reasoner框架。Meta还发布了可扩展的无语言依赖视觉表征学习方法WebSSL和纯视觉Transformer模型系列DINOv2.
- 中国公司Bidence(字节跳动)创建了视频基础模型Seaweed 7B,并在排行榜上表现出色。
- AI2 (Allen Institute for AI)致力于开源,发布了参数高达10亿的小型模型,并提供关于基准、预测模型和评估指标的建议。
- Nvidia推出了小型长上下文多模态学习模型Eagle 2.5 VLM,在长视频理解方面表现出色.
- 新型混合模型Nimatron通过用Mamba层替换自注意力层,实现了更快的速度和更长的上下文长度.
- Physical Intelligence发布了视觉语言动作模型PIE,旨在使机器人能够在新的环境中执行任务。
智能助手进化:从代码到生活
- MicrosoftCopilot Studio新增UI Agents功能,可在没有API的情况下自动化桌面和Web工作流程。Microsoft 365 Copilot还新增了AI驱动的搜索、新的创建体验、Copilot笔记本和一个Agent 商店,提供各种功能的Agent,例如分析师和研究员等。此前宣布又撤回的Recall 功能再次确认即将推出,并改为选择启用,数据在本地处理。Microsoft搜索也在利用NPU和AI改进搜索功能,并推出了可以直接在屏幕上总结、重写或复制粘贴文本和图像的“点击执行”功能。
- JetBrains推出了更高级的智能编码助手JUNI,能够执行更复杂的开发任务,类似初级开发人员或结对编程伙伴。
- Anthropic提出了模型上下文协议 (MCP)及其Python库,使得模型与外部环境交互更加容易. Anthropic还发布了关于如何更好地使用Claude进行Agentic Coding的最佳实践.
- Bidence推出了开源多模态AgentUI TARS 1.5,可以与用户的桌面和浏览器进行交互。
- Perplexity在其iOS应用中推出了Perplexity Assistant,旨在实现更强大的手机助手功能,如播放媒体、起草邮件、移动会议等.
多模态融合:视听理解再上台阶
- OpenAI的O3 和 O4 mini 模型具备识别照片拍摄地点的能力. 其图像生成模型已通过API提供。
- Google的View 2是一个高质量的文本到视频生成模型。
- xAI的Grok 聊天机器人新增了视觉功能。
- Meta发布了开放视觉语言模型Perceptron LM,用于视频理解.
- Nvidia推出了小型长上下文多模态学习模型Eagle 2.5 VLM,擅长长视频理解.
- Bidence的UI TARS 1.5 Agent是一个开源的多模态Agent,支持图像输入。
- Ray-Ban Meta智能眼镜推出了实时翻译功能,并支持离线语言包。
开源生态与工具链:加速创新步伐
- OpenAI计划发布开源AI模型,并推出了开源框架Open Agent,利用双LLM协作提高代码质量.
- AI2 (Allen Institute for AI)持续发布开源小模型。
- Bidence开源了多模态AgentUI TARS 1.5。
- Google在Gemma 模型中引入了量化感知训练技术,方便在资源受限设备上运行.
- Anthropic提出了模型上下文协议 (MCP)及其Python库.
- Adobe Firefly发布新版本并支持选择包括开源模型在内的多种模型.
- Google Sheets新增了AI 公式,方便用户在表格中执行各种AI任务。
- LTX Studio集成了Google V2 视频生成模型,并以相对较低的价格提供服务。
应用场景拓展:艺术、电商与生活服务
- YouTube正在测试AI 视频摘要功能,以片段轮播的形式高亮显示搜索相关的视频内容.
- Adobe Firefly和Crea AI在AI艺术领域推出新功能,如模型选择、聊天图像编辑和3D环境生成.
- Tencent发布了新的高质量3D模型Hunan 3D 2.5.
- Character AI为其虚拟角色推出视频生成功能avatar effects.
- Argil推出AI虚拟形象产品展示功能,方便开展电子商务
- Tavis发布了新型唇语同步模型 .
- Descript正在测试通过与AI聊天进行视频编辑的智能Agent功能.
- Ray-Ban Meta眼镜的实时翻译功能提升了沟通的便利性.
伦理考量与政策风向
- Anthropic发布报告,强调需要关注更广泛的AI危害,并声称 Claude 3.7 拒绝无害提示的比例有所降低,同时分享了 Claude 被恶意使用的案例研究. 其CEO Dario Amodei 强调了AI 可解释性的紧迫性.
- 据报告,互联网恶意Bot流量激增,AI的犯罪用途是推手之一.
- 美国电影艺术与科学学院对AI 辅助电影参与奥斯卡奖持开放态度,但强调人类的核心作用.
- 美国总统特朗普发布了关于AI 素养的行政命令,将其提升为国家优先事项.
- DeepMind CEO Demis Hassabis 谈论AI 的自我意识,认为理解“自我”和“他人”可能是其开端.
- 强化学习先驱者提出利用数据流进行模型持续学习的趋势.
算力基石与行业动态
- 中国GPU制造商华为的高性能GPU预计下月开始发货,性能据称与Nvidia H100相当.
- 中国人形机器人销量预计将大幅增长.
- Liner Aligner Deep Research作为科学搜索引擎,用户已超千万.
- 根据LLM排行榜,OpenAI和Google模型在英语和代码方面仍占主导地位,开源模型Deepseek V3表现出色,中国Moonshot AI的Kim 1.5模型据反馈性能优异.
总而言之,本周AI领域在模型创新、工具迭代、应用拓展以及伦理与政策探讨等方面都呈现出蓬勃发展的景象。各家公司在基础研究和实际应用上持续发力,推动AI技术不断向前演进。
附注:
AI进展神速,令人眼花缭乱,各类术语名词众多。《一周速览》篇幅有限,不能详尽解释,如过眼烟尘,有朋友反映看不懂。因此本期特设“深度版”(https://wp.me/p343At-o0),补充上下文解释和必要的背景说明,希望有所助益。今后也将不定期推出深度版,特此说明。

留下评论