一周AI速览(202505C):AI狂潮再进化:从“无米之炊”到“万物智能”

本周的人工智能领域展现了在自我学习、无需外部数据训练、自动化创意生成、融入日常生活设备以及机器人运动能力等方面的显著进步。以下是该要综述(本周另有详细的一周概览深度解说版):

模型更新与模型训练

  • Google DeepMind (Alpha Evolve):推出了一个名为Alpha Evolve的自我提升 AI 模型。它不仅能编写代码,还能“进化”代码。该模型使用了 Google 的 Gemini Flash 和 Gemini Pro。Gemini Flash 负责探索想法广度,生成大量潜在方案;Gemini Pro 则提供深刻见解,评估想法深度和质量。Alpha Evolve 使用自动化评估指标来验证、运行和评分程序,提供客观量化评估。Google DeepMind 已在内部使用 Alpha Evolve 优化数据中心、TPU 电路设计及 Gemini 模型训练。它还能提出解决复杂数学问题的新方法,发现了一个用于 4×4 复数矩阵乘法的新算法,这是 56 年来未被发现的改进。其意义在于能够发明新的问题解决方法,而非仅依赖现有已知方法。
  • 辛格大学/北京通用人工智能研究院/宾夕法尼亚州立大学 (Absolute Zero – AZR):一篇新研究论文介绍了 Absolute Zero (AZR),这是一种新的 AI 模型训练方法,其核心理念是无需外部数据。研究提出,在 AI 超越人类智能的未来,人类提供的任务可能限制超智能系统的学习潜力。为解决此问题,他们提出了RLVR (Reinforce Self-Play Reasoning)范式,即 Absolute Zero。在 AZR 下,单个模型学会提出能最大化自身学习进度的任务,并通过解决这些任务来提升推理能力,完全不依赖任何外部数据。Absolute Zero Reasoner 系统使用代码执行器来验证提出的代码推理任务和答案,作为可验证奖励的统一来源。简单来说,它自己创建编程和数学等问题,尝试解决,然后用代码执行器复核。尽管完全没有使用外部数据训练,AZR 在编码和数学推理任务上取得了总体最先进的性能。其局限性在于目前只擅长数学和编码,不具备通用世界知识。其意义在于解决了 AI 编写代码时知识通常来自人类编写代码的争议,它能够找出并编写以前未在训练数据中出现过的新代码
  • 通用:有研究发现,大型语言模型 (LLMs) 在单轮问答中表现良好,但在需要多次来回交互的多轮对话中,准确性会显著下降
  • 通用:来源标题指出,目前的 AI 竞争焦点正从模型本身转向应用

特定AI模型与工具

  • Google
  • Gemini 模型被用于 Alpha Evolve 的不同阶段。
  • Gemini 集成到了 YouTube 的Peak Points产品中,用于识别视频的“峰值”时刻以优化广告放置。
  • Arena AI 模型排行榜显示,Gemini 目前位列领先地位。
  • OpenAI
  • ChatGPT更新了GPT 4.1 模型GPT 4.1 Mini,并将它们集成到了付费计划中。GPT 4.1 模型特别擅长处理代码
  • ChatGPT 新增了PDF 导出功能,方便用户导出格式良好的文档。
  • OpenAI 最近以 30 亿美元收购了 Windsurf,并早期投资了 Cursor。这与微软的 AI 战略有关。
  • Windsurf (被 OpenAI 收购):正在推出自己的模型家族SWE1 (Software Engineer 1),该模型针对整个软件工程过程进行了优化。SWE1 有三个模型:SWE1 (大约相当于 Claude 3.5 Sonnet)、SWE1 light 和 SWE1 mini。该模型目前对其所有付费用户可用,并且每条提示使用零积分。Windsurf 提出了“流意识”(Flow Awareness)的概念。
  • 11 Labs:发布了他们的SB1 Infinite Soundboard,这是一个集文本转音效生成器、声板、鼓机和无限环境噪音生成器于一体的工具。用户可以描述想要的音效,SB1 会使用其文本转音效模型生成声音。它提供预设音效、鼓机,用户也可以创建自己的声板。11 Labs 还与 Spotify 合作提供有声书旁白服务。
  • Stability AI / ARM:合作发布了Stable Audio Open Small,这是一个可以生成音效和短歌曲片段的音频生成器。它足够小,可以在移动手机上运行,并且已经开源,权重和代码都已发布。
  • 卡内基梅隆大学:推出了Lego GPT,这是一个文本转乐高模型。用户提供文本提示,它会计算如何用乐高积木构建该物体。该模型在相对较小的数据集上训练,主要生成基本物体结构,并限制于在 20x20x20 网格上使用一单元高的长方体积木。他们还能将生成的信息输入机器人,由机器人实际组装乐高模型。该模型可在 Hugging Face 上找到,但生成速度非常慢
  • Meta:除了其 CEO 关于自动化广告的愿景外,还将推出Asset Gen (3D 模型)工具。
  • Amazon:推出提升列表质量的 AI 工具。
  • TikTokAI Alive (图片转视频故事)工具。
  • Audible:正在使用 AI 将文本转为音频,并计划进行翻译。
  • Spotify:与 11 Labs 合作提供有声书旁白。
  • iMedical:医学推理大模型iMedical 8B。
  • Perplexity:最近获得了融资。
  • Bamba:推出9B version 2模型,一个基于 Mamba 架构的模型。
  • Face AI:通过面部预测年龄和癌症的 Face AI。
  • Deep Seek:有传闻称他们的R2模型即将发布。
  • Anthropic:有传闻称他们的Opus 4模型即将发布。
  • Elon Musk:承诺的Grok 2.5尚未出现。Arena 排行榜显示 Grok 位居第三。
  • Client (Klein):介绍了一个新的 AI 编码助手,在 Visual Studio Code 中寻找支持本地模型的 AI 助手。
  • Figma:流行的网页和应用原型设计工具 Figma 增加了 AI 功能,可以通过文本提示创建和改进设计。
  • Sakana AI:推出Continuous Third Machines。
  • 其他来自中国的研究/产品:Web Thinker、Wizard LM、Dev Flow、Quen 等。

AI应用

  • 通用 (广告领域):AI 即将渗透到广告的方方面面。公司将使用 AI 来找出最佳方式接触受众,并在最恰当的时间向用户展示最佳广告
  • Meta (广告):Meta 首席执行官马克·扎克伯格的愿景是,企业只需提供目标和预算,系统就会使用 AI自动创建广告创意、确定目标受众并持续优化
  • Netflix (广告):正在尝试使用 AI 使广告插播看起来更不像是广告插播。一种新格式将允许广告与节目和电影融为一体,感觉更“原生”于用户正在观看的节目。他们发布了一个新的模块化广告格式框架,利用生成式 AI 将广告与节目世界即时融合。这种新格式可以在节目中间或暂停时显示。
  • YouTube (广告):正在利用 AI 优化各种广告的放置位置。他们推出了Peak Points产品,使用 Gemini 来识别 YouTube 热门内容中最重要或“峰值”的时刻,以便在受众最投入时放置品牌广告。
  • Google (Gemini融入Android生态):Gemini 即将集成到 Android 生态系统的多个方面。今年晚些时候,Gemini 将登陆Wear OS 智能手表,用户可以直接与手表进行 AI 对话。在车内,Android Auto将提供免提对话协助,能够总结和翻译短信。驾车时,用户还可以与 Gemini 聊天、获取个性化新闻摘要或询问问题。今年晚些时候,Gemini 也将应用于Google TV,帮助进行电视内容推荐,用户可能能够直接与电视对话
  • Windsurf (软件工程):SWE1 模型家族针对整个软件工程过程进行了优化。
  • Figma (设计):Figma 增加了 AI 功能,可以通过文本提示创建和改进设计。
  • Audible / Spotify / 11 Labs (音频内容):AI 被用于文本转音频、旁白以及音效生成。
  • iMedical / Face AI (医疗健康):出现了用于医学推理的 LLM 和通过面部预测疾病的 AI。
  • Perplexity (搜索):该搜索引擎正在获得发展。

行业趋势

  • 通用 (即将到来的重要事件):来源提到接下来的几周将有大量 AI 相关公告。下周,微软 Build 大会Google IO 大会将在同一周内举行并重叠,预计两者都有重要公告。OpenAI 通常会试图盖过其他公司的发布,因此可能也会有 OpenAI 的公告。此外,还有关于 Anthropic (Opus 4) 和 Deep Seek (R2) 即将发布以及 Elon Musk 承诺的 Grok 2.5 尚未出现的传闻。
  • 微软/OpenAI/Windsurf/Cursor (战略合作):一张图表描绘了微软如何在 AI 竞赛中取得优势。微软持有 OpenAI 49% 的利润分成,并拥有 VS Code。Windsurf 和 Cursor 是最大的 AI 编码平台,都分叉自 VS Code。OpenAI 收购了 Windsurf 并投资了 Cursor。这意味着微软通过与 OpenAI 的合作关系,在使用 Windsurf 或 Cursor 的用户身上获利。
  • 通用 (人与AI协作):Windsurf 提出了“流意识”(Flow Awareness)概念。Jeremy Howard 倡导人与 AI 在持续对话中协作(对话工程),认为纯粹的自主 AI 不可靠,人机协作能取得更好成果
  • 通用 (AI行业裁员):五月份出现了明显的裁员增加,特别是微软和 Panasonic。
  • 通用 (AI模型排行榜):Arena 排行榜显示,Gemini 领先,Grok 位居第三,Meta 和 Anthropic 的模型排名较低。

机器人方面

  • 特斯拉 (Optimus机器人):来源展示了特斯拉 Optimus 机器人的视频。视频中,机器人能够进行复杂的舞蹈动作。最初的视频显示机器人似乎连接在轨道上,但另一个视频显示了没有连接线的同一台 Optimus 机器人,展示了其令人印象深刻的运动能力和速度。尽管跳舞机器人的用例尚不明确,但这展示了机器人变得越来越像人类的能力。

总结

总的来说,本周的报道突显了 AI 在多个前沿领域的突破,尤其是在无需外部数据训练和自动化生成方面的进展,同时也展示了 AI 融入日常生活和行业应用的广阔前景。接下来的几周预计将有更多激动人心的发布。



留下评论