AI一周速览（202504D）

模型竞技场：新秀登场，巨头升级

OpenAI的顶级图像生成模型GPT image one现已通过API开放，开发者可根据需求选择不同分辨率和价格方案。其O3 和 O4 mini 模型展现出能够根据照片准确识别拍摄地点的能力. OpenAI还计划在六月左右发布一款开源AI模型，据称性能将超越Meta和Deepseek的同类产品，并可能拥有超过1000万token的上下文窗口，甚至可能具备调用OpenAI闭源模型API的能力。此外，OpenAI还推出了轻量级的深度研究版本，由O4 Mini驱动，旨在提高Plus、Team和Pro用户的速率限制，并在免费计划中开放了原版深度研究功能，每月可使用五次至5月25日。
Google发布了高质量逼真的文本到视频生成模型 View 2，已在Gemini API、AI Studio和移动应用中上线。其Gemini 2.5 Flash 预览版作为混合推理模型，在多个基准测试中表现优异，尤其在STEM领域，用户还可控制推理预算。Google还在Gemma 模型中引入了量化感知训练 (QAT) 技术，使其在低精度量化后仍能保持良好准确性.
xAI发布了其旗舰AI模型Grok 3，并推出了Grok 3 Mini API，基准测试显示其在多方面优于其他竞争模型且价格更低。此外，Grok 聊天机器人新增了视觉功能。
Meta发布了拥有80亿参数的开放视觉语言模型Perceptron LM，专注于视频理解. 同时推出了用于精确对象理解的Locate 3D和测试AI协同能力的Collaborative Reasoner框架。Meta还发布了可扩展的无语言依赖视觉表征学习方法WebSSL和纯视觉Transformer模型系列DINOv2.
中国公司Bidence（字节跳动）创建了视频基础模型Seaweed 7B，并在排行榜上表现出色。
AI2 (Allen Institute for AI)致力于开源，发布了参数高达10亿的小型模型，并提供关于基准、预测模型和评估指标的建议。
Nvidia推出了小型长上下文多模态学习模型Eagle 2.5 VLM，在长视频理解方面表现出色.
新型混合模型Nimatron通过用Mamba层替换自注意力层，实现了更快的速度和更长的上下文长度.
Physical Intelligence发布了视觉语言动作模型PIE，旨在使机器人能够在新的环境中执行任务。

智能助手进化：从代码到生活

MicrosoftCopilot Studio新增UI Agents功能，可在没有API的情况下自动化桌面和Web工作流程。Microsoft 365 Copilot还新增了AI驱动的搜索、新的创建体验、Copilot笔记本和一个Agent 商店，提供各种功能的Agent，例如分析师和研究员等。此前宣布又撤回的Recall 功能再次确认即将推出，并改为选择启用，数据在本地处理。Microsoft搜索也在利用NPU和AI改进搜索功能，并推出了可以直接在屏幕上总结、重写或复制粘贴文本和图像的“点击执行”功能。
JetBrains推出了更高级的智能编码助手JUNI，能够执行更复杂的开发任务，类似初级开发人员或结对编程伙伴。
Anthropic提出了模型上下文协议 (MCP)及其Python库，使得模型与外部环境交互更加容易. Anthropic还发布了关于如何更好地使用Claude进行Agentic Coding的最佳实践.
Bidence推出了开源多模态AgentUI TARS 1.5，可以与用户的桌面和浏览器进行交互。
Perplexity在其iOS应用中推出了Perplexity Assistant，旨在实现更强大的手机助手功能，如播放媒体、起草邮件、移动会议等.

多模态融合：视听理解再上台阶

OpenAI的O3 和 O4 mini 模型具备识别照片拍摄地点的能力. 其图像生成模型已通过API提供。
Google的View 2是一个高质量的文本到视频生成模型。
xAI的Grok 聊天机器人新增了视觉功能。
Meta发布了开放视觉语言模型Perceptron LM，用于视频理解.
Nvidia推出了小型长上下文多模态学习模型Eagle 2.5 VLM，擅长长视频理解.
Bidence的UI TARS 1.5 Agent是一个开源的多模态Agent，支持图像输入。
Ray-Ban Meta智能眼镜推出了实时翻译功能，并支持离线语言包。

开源生态与工具链：加速创新步伐

OpenAI计划发布开源AI模型，并推出了开源框架Open Agent，利用双LLM协作提高代码质量.
AI2 (Allen Institute for AI)持续发布开源小模型。
Bidence开源了多模态AgentUI TARS 1.5。
Google在Gemma 模型中引入了量化感知训练技术，方便在资源受限设备上运行.
Anthropic提出了模型上下文协议 (MCP)及其Python库.
Adobe Firefly发布新版本并支持选择包括开源模型在内的多种模型.
Google Sheets新增了AI 公式，方便用户在表格中执行各种AI任务。
LTX Studio集成了Google V2 视频生成模型，并以相对较低的价格提供服务。

应用场景拓展：艺术、电商与生活服务

YouTube正在测试AI 视频摘要功能，以片段轮播的形式高亮显示搜索相关的视频内容.
Adobe Firefly和Crea AI在AI艺术领域推出新功能，如模型选择、聊天图像编辑和3D环境生成.
Tencent发布了新的高质量3D模型Hunan 3D 2.5.
Character AI为其虚拟角色推出视频生成功能avatar effects.
Argil推出AI虚拟形象产品展示功能，方便开展电子商务
Tavis发布了新型唇语同步模型 .
Descript正在测试通过与AI聊天进行视频编辑的智能Agent功能.
Ray-Ban Meta眼镜的实时翻译功能提升了沟通的便利性.

伦理考量与政策风向

Anthropic发布报告，强调需要关注更广泛的AI危害，并声称 Claude 3.7 拒绝无害提示的比例有所降低，同时分享了 Claude 被恶意使用的案例研究. 其CEO Dario Amodei 强调了AI 可解释性的紧迫性.
据报告，互联网恶意Bot流量激增，AI的犯罪用途是推手之一.
美国电影艺术与科学学院对AI 辅助电影参与奥斯卡奖持开放态度，但强调人类的核心作用.
美国总统特朗普发布了关于AI 素养的行政命令，将其提升为国家优先事项.
DeepMind CEO Demis Hassabis 谈论AI 的自我意识，认为理解“自我”和“他人”可能是其开端.
强化学习先驱者提出利用数据流进行模型持续学习的趋势.

算力基石与行业动态

中国GPU制造商华为的高性能GPU预计下月开始发货，性能据称与Nvidia H100相当.
中国人形机器人销量预计将大幅增长.
Liner Aligner Deep Research作为科学搜索引擎，用户已超千万.
根据LLM排行榜，OpenAI和Google模型在英语和代码方面仍占主导地位，开源模型Deepseek V3表现出色，中国Moonshot AI的Kim 1.5模型据反馈性能优异.

总而言之，本周AI领域在模型创新、工具迭代、应用拓展以及伦理与政策探讨等方面都呈现出蓬勃发展的景象。各家公司在基础研究和实际应用上持续发力，推动AI技术不断向前演进。

附注：

AI进展神速，令人眼花缭乱，各类术语名词众多。《一周速览》篇幅有限，不能详尽解释，如过眼烟尘，有朋友反映看不懂。因此本期特设“深度版”（https://wp.me/p343At-o0），补充上下文解释和必要的背景说明，希望有所助益。今后也将不定期推出深度版，特此说明。

Let's Make AGI Real

AI一周速览（202504D）

模型竞技场：新秀登场，巨头升级

智能助手进化：从代码到生活

多模态融合：视听理解再上台阶

开源生态与工具链：加速创新步伐

应用场景拓展：艺术、电商与生活服务

伦理考量与政策风向

算力基石与行业动态

附注：

留下评论取消回复

AI一周速览（202504D）

模型竞技场：新秀登场，巨头升级

智能助手进化：从代码到生活

多模态融合：视听理解再上台阶

开源生态与工具链：加速创新步伐

应用场景拓展：艺术、电商与生活服务

伦理考量与政策风向

算力基石与行业动态

附注：

分享到：

留下评论 取消回复

留下评论取消回复