本周AI领域继续突破不断,亮点频频、干货满满。从基础模型的迭代升级到多模态技术的蓬勃发展,再到AI Agent的崭露头角,无不加速前进,让人目不暇接。
模型大战白热化:免费体验引领普惠潮流
本周,基础模型领域竞争异常激烈,一个显著的趋势是顶尖模型正越来越开放,让人不得不感谢DeepSeek的力挽狂澜和里程碑式贡献。谷歌率先宣布,其号称“最智能”的AI模型Gemini 2.5 Pro实验版已对所有免费用户开放。这款模型不仅拥有高达百万token的超大上下文窗口,更在代码能力方面表现出色。紧随其后,OpenAI也毫不逊色,将最新的GPT-4o模型赋予免费版ChatGPT用户。两大巨头的这一举措,无疑将顶尖AI技术更广泛地带入普通用户的生活,极大地推动了AI的普及和应用。然而,OpenAI的Altman也坦言,服务器压力巨大,新功能的推出可能需要有所放缓。
更值得关注的是,OpenAI透露计划发布自GPT-2以来的首个“开放”语言模型,并积极邀请开发者参与反馈。这一信号暗示着,在开源浪潮的影响下,OpenAI的策略可能正在发生微妙的调整。
多模态技术狂飙猛进:AI感知能力再上新台阶
本周,多模态AI领域展现出强劲的发展势头。OpenAI直接在ChatGPT中推出了由GPT-4o驱动的图像生成功能。据称,该功能不仅能够生成高质量的图像,还在图像编辑、文字嵌入等方面展现出前所未有的能力。社交媒体上更是涌现出大量由其生成的Ghibli风格的AI图像。
国内方面,阿里巴巴也发布了其开源的Quin 2.5 Omni 7B多模态模型,该模型能够同时处理文本、图像、音频和视频等多种模态的数据。此外,腾讯也发布了其“思维模型”T1,据称在部分评测榜单上表现亮眼。这些进展标志着国产AI力量的快速崛起。
在视频生成领域,Runway推出了Gen-4模型,而Higsfield AI和Luma AI也纷纷发布了新的视频编辑和生成功能。可以预见,AI视频技术的普及和应用将指日可待。
AI Agent初露锋芒:智能助手触手可及
本周,“AI Agent”无疑再次成为行业当红炸子鸡。微软在其Copilot中加入了Deep Research和Proactive Actions(Agent)功能。亚马逊也推出了自己的开源AI Agent工具Nova Act。此外,一些创新型公司如Rabbit(其Rabbit OS)以及SG Ariza和Sky Varant也在积极探索AI Agent的应用场景。这些AI Agent有望具备控制浏览器、操作应用程序,甚至协助用户处理日常事务的能力,未来或将彻底改变我们的工作和生活方式。
值得一提的是,OpenAI还推出了PaperBench(本数图笔记有专文介绍),一个旨在根据AI研究论文内容进行复现和验证的工具。这对于提升AI研究的透明度和可信度具有重要的意义。
伦理安全与监管:为AI发展保驾护航
在AI技术飞速发展的同时,其伦理和安全问题也日益受到重视。《AI Weekly》的报道指出,公众与AI专家在AI看法上存在显著差异,并对监管的不足表示担忧。日本发布了AI监管中期报告,而美国律师协会(ABA)也开始探讨现有伦理规则在生成式AI时代的适用性。
在美国,加州参议员Scott Wiener提出了SB 53法案,旨在保护AI领域的举报人,并建立Cal Compute研究集群以支持AI初创企业。此外,关于此前被否决的SB 1047法案,经过调整后再次被提出,其能否顺利通过,值得关注。
另一方面,包括NVIDIA在内的科技巨头正在积极游说特朗普政府,希望重新考虑拜登政府提出的AI扩散政策。与此同时,美国商务部将超过50家中国公司列入出口黑名单,进一步收紧对华AI技术的出口管制。
令人欣慰的是,Netflix创始人Reed Hastings向Bard College捐赠了5000万美元,用于成立AI与人文研究项目,重点关注AI的风险和影响。这表明,科技界对AI带来的社会性问题也开始给予高度重视。
版权之争愈演愈烈:AI训练数据的合规性边界
AI模型训练数据的版权问题一直是行业关注的焦点。《纽约时报》起诉OpenAI的版权案取得了重要进展,法官驳回了OpenAI要求撤销此案的请求。与此同时,环球音乐集团(UMG)起诉Anthropic侵犯其歌曲版权的案件中,法官裁定Anthropic目前可以继续使用其歌词训练AI模型。这两起案件的结果,无疑将对未来AI模型训练数据的合规性产生深远影响。
硬核研究持续深入:揭秘LLM的“大脑”
本周,Anthropic发布了一篇具有里程碑意义的论文(见数图笔记前面的文章),深入探讨了大型语言模型的“思维过程”。研究发现,LLM在处理不同语言时,会在一个抽象的“潜在空间”(latent space)进行思考,这表明其并非仅仅是简单的token生成。更令人惊讶的是,当要求LLM生成押韵句子时,它们会先思考最后一个词,再反推前面的内容,展现出一定的规划能力。此外,研究还揭示,LLM在进行数学计算后给出的“思考过程”,可能并非真实的计算路径,而更像是为了迎合人类的思维模式。这些发现颠覆了我们对LLM工作方式的传统认知。
此外,有研究表明,LLM内部蕴藏着比其外部表达更多的“隐藏知识”。Chain of Tools则提出了一种提升LLM工具使用能力的新方法。Sakana AI推出了一个更具挑战性的Sudoku基准测试,旨在更全面地检验AI模型的推理能力。
其他值得关注的AI动态:
- 国产AI模型Ernie 4.5在国际象棋比赛中击败了GPT-4.5,显示出国内AI在特定领域的实力。
- OpenAI低调推出了OpenAI Academy,提供AI学习资源,助力AI人才培养。
- Adobe Premiere Pro加入了AI视频扩展和音频生成功能,提升专业视频编辑效率。
- Meta展示了Mocha,一个能够仅通过语音和文本生成逼真说话人物的研究项目,预示着更自然的AI交互方式。
- Midjourney暗示V7模型即将发布,令人期待其在图像生成方面的进一步突破。
- 11 Labs推出了Actor Mode,允许用户用自己的声音指导AI语音合成,实现更个性化的语音内容创作。
- Tinder推出了一款AI驱动的调情游戏,探索AI在社交娱乐领域的应用。
- 脑机接口技术取得新突破,能够将脑电波转化为语音,为沟通障碍人群带来福音。
小结
本周AI领域在模型创新、多模态融合、AI Agent探索以及基础研究等多个方面又一次全面开花,取得了显著的进展。与此同时,伦理安全、监管以及版权等问题也日益凸显,需要全行业共同关注和应对。展望未来,我们有理由相信,AI技术将朝着更加普惠、多模态融合、智能化Agent以及安全可控的方向发展。下一周不知还有什么惊喜在等待我们!俺这样夜以继日不辞劳苦给大家报道进展,希望你能点个小赞鼓励一下,最好能看到大家在评论区分享看法!如果您觉得本文对您有所帮助,请点赞并分享给更多关注AI的朋友们!
(本周速览采用NotebookLM制作,上周Perplexity和Gemini更省事)

留下评论