AI一周速览（202504A）：模型革新、多模态跃升与Agent破局

本周AI领域继续突破不断，亮点频频、干货满满。从基础模型的迭代升级到多模态技术的蓬勃发展，再到AI Agent的崭露头角，无不加速前进，让人目不暇接。

模型大战白热化：免费体验引领普惠潮流

本周，基础模型领域竞争异常激烈，一个显著的趋势是顶尖模型正越来越开放，让人不得不感谢DeepSeek的力挽狂澜和里程碑式贡献。谷歌率先宣布，其号称“最智能”的AI模型Gemini 2.5 Pro实验版已对所有免费用户开放。这款模型不仅拥有高达百万token的超大上下文窗口，更在代码能力方面表现出色。紧随其后，OpenAI也毫不逊色，将最新的GPT-4o模型赋予免费版ChatGPT用户。两大巨头的这一举措，无疑将顶尖AI技术更广泛地带入普通用户的生活，极大地推动了AI的普及和应用。然而，OpenAI的Altman也坦言，服务器压力巨大，新功能的推出可能需要有所放缓。

更值得关注的是，OpenAI透露计划发布自GPT-2以来的首个“开放”语言模型，并积极邀请开发者参与反馈。这一信号暗示着，在开源浪潮的影响下，OpenAI的策略可能正在发生微妙的调整。

多模态技术狂飙猛进：AI感知能力再上新台阶

本周，多模态AI领域展现出强劲的发展势头。OpenAI直接在ChatGPT中推出了由GPT-4o驱动的图像生成功能。据称，该功能不仅能够生成高质量的图像，还在图像编辑、文字嵌入等方面展现出前所未有的能力。社交媒体上更是涌现出大量由其生成的Ghibli风格的AI图像。

国内方面，阿里巴巴也发布了其开源的Quin 2.5 Omni 7B多模态模型，该模型能够同时处理文本、图像、音频和视频等多种模态的数据。此外，腾讯也发布了其“思维模型”T1，据称在部分评测榜单上表现亮眼。这些进展标志着国产AI力量的快速崛起。

在视频生成领域，Runway推出了Gen-4模型，而Higsfield AI和Luma AI也纷纷发布了新的视频编辑和生成功能。可以预见，AI视频技术的普及和应用将指日可待。

AI Agent初露锋芒：智能助手触手可及

本周，“AI Agent”无疑再次成为行业当红炸子鸡。微软在其Copilot中加入了Deep Research和Proactive Actions（Agent）功能。亚马逊也推出了自己的开源AI Agent工具Nova Act。此外，一些创新型公司如Rabbit（其Rabbit OS）以及SG Ariza和Sky Varant也在积极探索AI Agent的应用场景。这些AI Agent有望具备控制浏览器、操作应用程序，甚至协助用户处理日常事务的能力，未来或将彻底改变我们的工作和生活方式。

值得一提的是，OpenAI还推出了PaperBench（本数图笔记有专文介绍），一个旨在根据AI研究论文内容进行复现和验证的工具。这对于提升AI研究的透明度和可信度具有重要的意义。

伦理安全与监管：为AI发展保驾护航

在AI技术飞速发展的同时，其伦理和安全问题也日益受到重视。《AI Weekly》的报道指出，公众与AI专家在AI看法上存在显著差异，并对监管的不足表示担忧。日本发布了AI监管中期报告，而美国律师协会（ABA）也开始探讨现有伦理规则在生成式AI时代的适用性。

在美国，加州参议员Scott Wiener提出了SB 53法案，旨在保护AI领域的举报人，并建立Cal Compute研究集群以支持AI初创企业。此外，关于此前被否决的SB 1047法案，经过调整后再次被提出，其能否顺利通过，值得关注。

另一方面，包括NVIDIA在内的科技巨头正在积极游说特朗普政府，希望重新考虑拜登政府提出的AI扩散政策。与此同时，美国商务部将超过50家中国公司列入出口黑名单，进一步收紧对华AI技术的出口管制。

令人欣慰的是，Netflix创始人Reed Hastings向Bard College捐赠了5000万美元，用于成立AI与人文研究项目，重点关注AI的风险和影响。这表明，科技界对AI带来的社会性问题也开始给予高度重视。

版权之争愈演愈烈：AI训练数据的合规性边界

AI模型训练数据的版权问题一直是行业关注的焦点。《纽约时报》起诉OpenAI的版权案取得了重要进展，法官驳回了OpenAI要求撤销此案的请求。与此同时，环球音乐集团（UMG）起诉Anthropic侵犯其歌曲版权的案件中，法官裁定Anthropic目前可以继续使用其歌词训练AI模型。这两起案件的结果，无疑将对未来AI模型训练数据的合规性产生深远影响。

硬核研究持续深入：揭秘LLM的“大脑”

本周，Anthropic发布了一篇具有里程碑意义的论文（见数图笔记前面的文章），深入探讨了大型语言模型的“思维过程”。研究发现，LLM在处理不同语言时，会在一个抽象的“潜在空间”（latent space）进行思考，这表明其并非仅仅是简单的token生成。更令人惊讶的是，当要求LLM生成押韵句子时，它们会先思考最后一个词，再反推前面的内容，展现出一定的规划能力。此外，研究还揭示，LLM在进行数学计算后给出的“思考过程”，可能并非真实的计算路径，而更像是为了迎合人类的思维模式。这些发现颠覆了我们对LLM工作方式的传统认知。

此外，有研究表明，LLM内部蕴藏着比其外部表达更多的“隐藏知识”。Chain of Tools则提出了一种提升LLM工具使用能力的新方法。Sakana AI推出了一个更具挑战性的Sudoku基准测试，旨在更全面地检验AI模型的推理能力。

其他值得关注的AI动态:

国产AI模型Ernie 4.5在国际象棋比赛中击败了GPT-4.5，显示出国内AI在特定领域的实力。
OpenAI低调推出了OpenAI Academy，提供AI学习资源，助力AI人才培养。
Adobe Premiere Pro加入了AI视频扩展和音频生成功能，提升专业视频编辑效率。
Meta展示了Mocha，一个能够仅通过语音和文本生成逼真说话人物的研究项目，预示着更自然的AI交互方式。
Midjourney暗示V7模型即将发布，令人期待其在图像生成方面的进一步突破。
11 Labs推出了Actor Mode，允许用户用自己的声音指导AI语音合成，实现更个性化的语音内容创作。
Tinder推出了一款AI驱动的调情游戏，探索AI在社交娱乐领域的应用。
脑机接口技术取得新突破，能够将脑电波转化为语音，为沟通障碍人群带来福音。

小结

本周AI领域在模型创新、多模态融合、AI Agent探索以及基础研究等多个方面又一次全面开花，取得了显著的进展。与此同时，伦理安全、监管以及版权等问题也日益凸显，需要全行业共同关注和应对。展望未来，我们有理由相信，AI技术将朝着更加普惠、多模态融合、智能化Agent以及安全可控的方向发展。下一周不知还有什么惊喜在等待我们！俺这样夜以继日不辞劳苦给大家报道进展，希望你能点个小赞鼓励一下，最好能看到大家在评论区分享看法！如果您觉得本文对您有所帮助，请点赞并分享给更多关注AI的朋友们！

（本周速览采用NotebookLM制作，上周Perplexity和Gemini更省事）

Let's Make AGI Real

留下评论取消回复