AI一周速览(202504C):模型战烽烟再起,智能体加速落地

模型争锋巨头竞相亮剑,统一功能性能持续飞升

本周,人工智能领域最引人瞩目的莫过于模型领域的激烈竞争

  • OpenAI发布了全新的GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano。这些模型在指令遵循和代码编写能力上均有显著提升,性能超越了之前的GPT-4和GPT-4.5,并在多个基准测试中表现出色.GPT-4.1提供了100万 或高达165万token的超长上下文窗口,并在SWEbench Verified基准测试中取得了55.5%的优异成绩,远超GPT-4.0的33%。OpenAI还更新了03和04 Mini模型,其中04 Mini的性能甚至超过了03模型。GPT-4.1系列通过API提供,并针对不同尺寸提供了不同的定价. OpenAI还引入了prompt缓存功能,有望进一步降低使用成本。
  • 谷歌发布了Gemini 2.5 Flash的预览版。这款模型是近期发布的表现强大的Gemini 2.5 Pro的更小、更快速版本。Gemini 2.5 Flash旨在以更低的成本(每百万token 15美分)提供强大的性能,在某些方面甚至超越了OpenAI的O4 Mini。Gemini 2.5 Flash是一个混合推理模型,用户可以选择是否启用其思考功能。
  • 中国的AI力量也在崛起,字节跳动宣布了其推理模型Seed Thinking V1.5。据称,该模型在多个基准测试中与近期发布的模型(如DeepSeek V3 R1)具有竞争力,并通过强化学习进行了优化。Seed Thinking V1.5拥有2000亿参数,但采用了混合专家模型架构,每次只激活200亿参数。
  • 一款名为OpenHands LLM 32B的模型引起了广泛关注。这款由伊利诺伊大学和卡内基梅隆大学的研究人员及社区贡献者共同开发的仅有320亿参数的小模型,在软件工程基准测试(SWE bench)上的性能竟然与拥有6710亿参数的Deepseek V3 R1等大型模型相媲美。这得益于强化学习的训练方法,模型通过在终端中实际运行代码并从错误中学习,实现了性能的飞跃。由于模型体积小巧,OpenHands LLM 32B甚至可以在笔记本电脑上运行。Nvidia也展示了其UltraLong 8B模型,这款基于Llama 80亿参数的小模型,却能够处理百万甚至数百万的tokens的长上下文。

“大脑”上线!聊天机器人迎来长记忆时代 

用户期待已久的记忆功能在本周终于落地!OpenAI的ChatGPT和XAI的Grok几乎同时推出了记忆功能。这意味着聊天机器人将能够记住用户之前的对话内容,从而实现更连贯、更个性化的交互体验。用户可以控制ChatGPT的记忆功能,选择启用或禁用,并管理其记住的信息。Grok还推出了Grok Studio,用于创建文档和应用。

AI智能体初露锋芒!赋能应用,告别繁琐操作

AI正在变得越来越智能,甚至能够代替我们完成一些重复性的任务。

  • Opera浏览器推出了Agentic AI网络浏览器体验的预览版,其中的Browser Operator功能可以代表用户自动浏览网页,执行搜索等任务
  • Canva发布了Visual Suite 2.0,其中包含Canva Code,这是一个利用生成式AI进行编码的工具,能够根据文本生成小部件和网站。Canva还新增了一个AI聊天机器人,方便用户在其界面中使用各种AI工具,如照片编辑、尺寸调整和内容生成。
  • OpenAI发布了Cordex CLI,这是一个prompt工具,可以实现代码的自动化生成,功能类似于Anthropic的Tool Pool。同时,一个名为Windsurf的代码编辑器引起了业界的广泛关注,据说OpenAI正在洽谈以30亿美元的价格收购该公司。Windsurf可以作为Visual Studio Code和PyCharm等IDE的扩展使用,也可以独立运行.
  • GPT for Sheets and Docs的浏览器扩展程序发布,可以将GPT的功能集成到Google Sheets和Google Docs中,方便用户在日常办公中使用AI。
  • Cloudy推出了Cloudy Research功能,其亮点在于与Google Workspace的深度集成。用户可以在Cloudy中启用Research Beta,让AI访问并分析其Google Workspace中的信息,包括邮件、日历和云盘文件。这使得Cloudy能够根据用户的个人数据提供更个性化和相关的研究结果,并能直接通过Gmail发送。
  • 在视频生成领域,谷歌的AI视频生成工具VOW2正式在美国上线。VOW2对标OpenAI的Sora模型,能够生成高质量的720p视频,时长不超过8秒。尽管成本尚未公开,但据称其每秒收费约为35美分,相当具有竞争力。

算力基建持续狂飙!国产力量崛起,行业重心悄然转移

在AI算力基础设施方面,本周也迎来重要进展。

  • 谷歌宣布了第七代TPU——Ironwood。这款TPU被认为是首款专为推理设计的TPU,其单芯片性能达到了4.66 PFLOPS,并配备了192 GB的HBM3内存。谷歌强调,与2017年的TPU V2相比,Ironwood的性能提升了3600倍,能效也大幅提高。
  • 为了应对美国对Nvidia高端AI芯片的出口限制, 中国企业摩尔线程(MO Threads)推出了其Muza SDK,并开发了名为Musifying的工具,方便将Nvidia CUDA代码移植到Muza平台。
  • 行业巨头如微软正在放缓数据中心的扩张速度,将重心从成本高昂的AI训练转向更具盈利潜力的AI推理。这种转变反映了市场对AI应用落地的重视,以及对AI基础设施可能出现过剩的担忧。类似地,AI搜索引擎Perplexity最初也曾考虑自研模型,但最终选择利用现有模型构建应用并实现盈利。
  • 亚马逊推出了Nova Sonic快速语音生成技术,并在其AWS Bedrock服务上运行。

开源协作谱新篇!安全与评估工具齐头并进

开源社区在AI发展中扮演着至关重要的角色。

  • Hugging Face宣布收购人形机器人初创公司Poland Robotics。Hugging Face计划销售并开放Poland Robotics的人形机器人Reichi 2,以供开发者进行改进,旨在构建一个开放的机器人软件生态系统。
  • 艾伦人工智能研究所(AI2)发布了Almo Trace,这是一种新的工具,可以追溯模型输出到原始训练数据。这项技术有助于提高语言模型的透明度和可信度,并可用于事实核查和识别潜在的数据泄露问题。AI2还创建了一个名为Trace的模型,可以追溯模型输出到原始训练数据
  • Wikipedia为了应对恶意爬虫,决定自行抓取数据并以JSON格式提供给Kaggle,供研究人员下载使用。
  • N8N作为一个开源的工作流自动化平台,也受到了许多用户的喜爱。
  • OpenAI发布了一项新的基准测试BrowseComp,用于评估AI代理在网络上浏览和检索复杂信息的能力。
  • LLM Arena平台新增了搜索能力排行榜,展示了不同模型或系统在信息检索方面的表现。
  • OpenAI发布了BrowseComp网络浏览基准.

行业动态与前沿探索:安全风险引关注,模型优化不停歇

本周,AI行业的动态和前沿技术探索同样值得关注。

  • OpenAI正面临来自XAI(由埃隆·马斯克创立)的持续法律挑战,后者试图阻止OpenAI转向营利性机构。一些前OpenAI员工提交了一份“非当事人意见陈述”,支持阻止OpenAI转为营利性机构的诉讼。此外,有报道称OpenAI已缩减了其前沿模型的安全测试时间和资源
  • OpenAI前首席科学家Ilya Sutskever创立的新AI公司Save Super Intelligence备受瞩目。
  • Meta(前Facebook)的一名前高管Sarah Wins声称,Meta曾协助中国开发AI技术,以换取在中国开展业务的机会。Meta对此予以否认。
  • Nvidia正在利用一家以色列初创公司DETI开发的技术进行神经架构搜索(Neural Architecture Search),以优化AI模型的结构
  • 一种名为Taskmaster的方法被提出,用于处理复杂的任务,其核心思想是先让模型制定计划,然后逐步执行
  • Anthropic推出了名为Claude Max的全新订阅服务,价格为每月200美元XAI正式发布了Grok 3模型的API
  • 招聘市场来看,与AI相关的职位需求持续增长.Python仍然是最受欢迎的AI相关技能.
  • 美国政府进一步限制Nvidia向中国出口先进AI芯片,包括H20型号.
  • Nvidia为CUDA库增加了原生Python支持.
  • OpenAI使用Triton语言编写AI代码,Triton是一种构建在Python之上的语法糖.
  • 一种名为“planner and follower reasoning”的方法被提出,以提升推理能力.
  • 哈佛商业评论的研究人员指出,терапия(治疗)和陪伴已经成为AI的首要应用场景。

总的来说,本周AI领域在模型创新、应用拓展、基础设施升级以及安全治理等方面都取得了显著进展,未来AI的发展将更加注重实际应用和效率提升。



留下评论