一周AI速览(202508D)

本周的AI速览如约到来!依然是精彩纷呈😄。一个显著的趋势是模型对记忆和个性化理解的需求日益增长,这被视为构建更强大、更高效AI体验的关键。正如人类离不开记忆和个性化理解,AI模型也需要它们来更有效地响应和执行任务。接下来,以下按主题为您梳理本周的重磅AI新闻。

AI模型进展与核心能力

  • GPT-6的“记忆”与个性化展望: 尽管GPT-5刚发布不久,OpenAI的Sam Altman已经开始讨论GPT-6的未来。他指出,用户对产品特性有需求,这些特性要求模型能够更好地理解他们,这可能指向更深层次、更有意义的模型记忆。Altman认为,模型记忆是“令人难以置信的护城河”,模型越了解用户,表现就会越好,能学习用户的简写和偏好,并在很多用例中更高效地“捷径”解决方案。然而,他也提出了模型过度反映用户偏好可能导致“回音室效应”的挑战。
  • Perplexity开发“超级记忆”功能: Perplexity的CEO Arind表示,他们正在为所有用户开发名为“超级记忆”的功能。他强调,当一个优秀的模型能理解并学习其用户时,它会变得更个人化、更强大,因此所有AI应用公司和前沿模型实验室都应该大力投入AI记忆的开发。早期测试表明,该功能表现远超现有任何方案。
  • Deepseek V3.1开源模型发布: Deepseek公司推出了Deepseek V3.1,这是一个开放权重模型,用户现在可以从HuggingFace下载。新版本不再需要“思考”步骤,并在某些基准测试中超越了Claude Opus。Deepseek 3.1采用MIT许可证,是一款开源模型,虽然是大型模型,需要足够的显存运行,但其开源性质备受关注。
  • GPT-5 Pro在数学领域取得新突破: OpenAI的Sebastian Bubck公布了证据,证明GPT-5 Pro能够解决新的、有趣的数学问题。在一篇凸优化论文中,GPT-5 Pro提出了一个比论文中更好的边界,并且其证明经过验证是正确的。这一进展表明,即使模型的核心智能不再有进一步突破,围绕模型的“脚手架”(如记忆)的构建也将为世界带来巨大的价值和未开发的用例。
  • OpenAI GPT-5在医疗领域表现卓越: 一篇研究论文显示,OpenAI GPT-5在MEQA临床问题上取得了高达95.96%的准确率,远超之前的GPT-4模型。
  • 微软全线集成GPT-5: 微软正在将其所有产品(包括Microsoft 365 Copilot、GitHub Copilot、Visual Studio Code和Azure AI foundry)集成GPT-5功能。
  • 大模型排名更新: 在LM Marina的最新榜单中,GPT-5暂时退居二线,Gemini在聊天领域位居榜首。而在编码领域,Claude独占前三。

AI新工具与应用

  • 图像与视频生成/编辑: 
  • Qwen Image Edit (通义听画编辑): 这是一款由中国公司推出的强大的图像编辑模型,拥有200亿参数,且是开源的。其关键功能包括精准的文本编辑,支持中英文,且不会破坏文本本身;高级语义编辑,如对象旋转、IP(知识产权)创建;低级外观编辑,包括添加、删除和插入。该模型在隔离图像部分进行更改时表现出色,保持图像其他部分不变。
  • Google Nana Banana: 这是一款图像生成模型,在文本到图像生成方面表现卓越,优于GPT-4o和Flux one context。它能生成细致入微、场景编辑一致、照片级真实感的图像,支持多种风格。
  • 阿里巴巴One Model 2.2版: 该模型实现了高清文本到视频生成,性能和质量均有提升。
  • Meta Dina V3: 一款在视觉领域采用自监督学习(SSL)的模型,实现了最先进的高分辨率图像处理。
  • Google Opal: Google发布了Opal的beta版本,允许用户通过简单的提示创建“一次性”的迷你应用。这些应用以节点为基础的工作流形式构建,可以轻松创建、共享和修改。例如,它能用于从YouTube视频中提取转录、分析教育内容并生成测试。
  • 协议与通信: 
  • Google Agent-to-Agent协议: 这是一个基于JSON的协议,支持代理之间的会话式交流,甚至可以传输图像,实现多模态对话。
  • Anthropic Model Context Protocol (MCP): 同样基于JSON,用于代理或模型与结构化数据源进行通信。这两个协议可以相互补充,在同一系统中使用。
  • FastAPI MCP: 一款可以将MCP服务器挂载到FastAPI服务器上的模块。
  • 数据提取与处理: 
  • Google Lang Extract: 这是一款Python库,可以接入不同的模型(云端或本地LLM),用于从文本中提取指定信息,并能指示信息在文本中的具体位置,从而有效防止幻觉。它在GitHub上开源
  • Archon系统: Cole Meden创建了Archon,这是一个能够结合多种方式存储和检索信息的系统,它像一个带有代理和数据检索功能的操作系统
  • Google Gemini URL上下文工具: 现在,您可以在Gemini API的提示中直接包含URL,该工具将追踪URL并提取信息
  • 代码与开发: 
  • Claude Code: 现在支持输出样式(如JSON),方便结构化数据返回。它还支持多代理工作流,通过规划、配置不同代理、使用钩子和测试来有效执行复杂任务。同时,还有多种预构建的专业模板可供使用。
  • Agents.md标准化协议: 针对代理驱动开发中不同工具的上下文和指令文件不兼容的问题,主要的代理编码平台共同制定了Agents.md标准。该标准旨在提供一个专门且可预测的位置,为AI编码代理提供项目上下文和指令,它就像一个为代理设计的README文件。该标准是开源的,并已获得OpenAI Codec、Google AMP Jewels等工具的支持。
  • Windmill.dev: 一个用于创建AI管道的平台,它支持AI辅助代码编写,并提供VS Code扩展,拥有强大的社区支持。
  • 音频转录: Nvidia Canary (10亿参数) 和 Parakeet (60亿参数) 模型,提供小巧、快速、开源、多语言的音频转录功能。
  • Pixel 10手机: 新一代Pixel 10手机搭载了大量AI功能,其高效芯片可运行40亿参数模型。它支持实时视觉指导、对话式照片编辑、Gmail/日历/消息的Magic Compose,以及在保留说话者声音的十种语言实时语音翻译
  • 字节跳动Seed OSS 360亿参数模型: 这是一款开源模型,拥有50万tokens的超长上下文和强大的推理代理能力。

AI基础设施与平台

  • Amazon Bedrock的AI开发功能: Amazon Bedrock为构建生成式AI应用提供了四个关键功能:
  • 提示优化 (Prompt Optimization): 自动重写提示以提高性能并使其更简洁
  • 智能提示路由 (Intelligent Prompt Routing): 根据成本、效率、延迟等因素,将提示自动路由到最适合的模型
  • 提示缓存 (Prompt Caching): 对于长而重复的提示,可以节省处理时间并降低延迟
  • 模型蒸馏 (Model Distillation): 一种技术,通过将知识从更昂贵的“教师模型”转移到更小、性能更好的“学生模型”,从而创建精简版模型。
  • OpenAI或将进入基础设施市场: 有报道称OpenAI可能开始向开发者和其他公司销售自己的基础设施,类似于Google Cloud、Azure和AWS。然而,目前其计算能力可能不足以销售多余容量。
  • Nvidia为中国市场开发新AI芯片: Nvidia正在开发一款专为中国市场设计的新AI芯片,代号为B30A。这款芯片的性能将优于之前为应对限制而专门销售给中国的H20芯片。它采用单芯片设计,原始计算能力约为更复杂的B300双芯片配置的一半。
  • 数据库与数据处理工具对比: 
  • SQLite: Python标准库的一部分,轻量、快速、方便,采用行式存储
  • DuckDB: 适用于分析,采用列式存储,能快速处理大型数据集。
  • Pandas: 广泛用于数据分析的“面板数据”工具。
  • Polars: 类似于Pandas,但由Rust编写,速度极快且内存效率高。

机器人技术

  • Boston Dynamics Atlas机器人新演示: Boston Dynamics发布了其下一代机器人Atlas的演示视频。视频展示了Atlas在完全自主、1倍速下进行的平稳操作。机器人能够打开箱子、取出物品,并在箱子被移动等干扰下继续完成任务。Atlas的方法侧重于长时程、语言条件下的操作,通过将传感器输入和语言提示映射到高频全身控制来实现全身控制和运动。其训练过程包括遥操作数据收集、数据整理、大规模模型训练和严格的评估。
  • Figure机器人在户外行走: Figure Robotics也展示了其Figure 2机器人在户外复杂地形中行走的视频。视频中机器人穿过灌木丛、越过障碍物,即使动作尚不流畅,其在困难地形中的导航能力也令人印象深刻。这同样是端到端神经网络控制下的强化学习成果。
  • 北京世界人形机器人大赛: 一场盛大的活动在北京举行,超过500台人形机器人,来自16个国家的团队参与了多项赛事。比赛中不乏机器人跌倒、走反方向或做出有趣动作的场景,甚至还有机器人踢足球,非常精彩。

产业动态与企业策略

  • Meta AI团队的第四次重组: Meta正在对其AI团队进行第四次重组。重组细节包括:
  • 由Yann LeCun领导的FAIR团队将更积极地充当创新引擎,将其研究直接提供给Meta Super Intelligence Lab。
  • Meta Super Intelligence Labs的研究将由新任首席科学家Shenha Xiao领导。
  • 前GitHub CEO Natt Freeman被任命,将直接向Alexander Wang汇报,负责将AI集成到Meta的产品中。
  • 成立了一个新的基础设施团队,由长期任职的工程副总裁Aparna Ramani领导,她负责Meta所有AI基础设施。
  • 几个月前才成立的AGI Foundations团队将被解散
  • Anthropic巨额融资: 继3月份筹集35亿美元后,Anthropic正在寻求额外100亿美元的融资,显示了其在AI领域的巨大成功。
  • Meta的云基础设施合作: Meta与Google Cloud达成了一项六年100亿美元的协议,同时还与Amazon和Microsoft等其他提供商建立了合作,以满足其对云基础设施的巨大需求。
  • MIT报告揭示生成式AI商业试点失败原因: 一份报告指出,95%的生成式AI商业试点项目正在失败,并非因为技术本身,而是因为它们通常被应用于销售和营销等结果不佳的领域。报告强调,生成式AI在自动化后台任务、节省资金和提高效率方面能产生最佳效果。
  • BVP报告揭示AI产业洞察: Bessemer Venture Partners (BVP) 的报告描绘了AI从“大爆炸时代”到当前“超新星”和“流星”初创公司的发展轨迹。报告强调了基础设施、开发者平台和工具的重要性。它还指出,AI正在医疗、法律、教育、房地产等多个行业迅速普及,并预测浏览器将成为Agentic AI的可编程界面,将出现新的AI原生社交媒体,大型SaaS公司将积极收购AI能力。
  • 游戏开发者与AI: 一项调查显示,90%的游戏开发者正在使用AI,以减少重复性任务、推动创新并提升玩家体验。
  • HealthChain: 一个GitHub上的开源Python模块,旨在为医院、医生、研究实验室、保险公司等医疗机构之间提供安全合规的医疗信息交换

研究与创新

  • Dynamics Lab Mirage 2: 这个团队创建了一个系统,允许用户上传一张图片,然后将其转化为可互动的虚拟世界,用户可以在其中移动并邀请他人一同活动,宛如一个从单张图片生成的游戏。
  • Thime: 一个在Hugging Face上开源的图像处理系统,它提供了用于像素级或大规模图像操作(如旋转、裁剪、缩放、对比度增强)的内置工具,易于使用且性能卓越
  • Python微工具: 有研究表明,仅仅数十行Python或JavaScript代码编写的微型工具,通过提供有用的服务,实际上可以产生被动收入

提示工程

  • GPT-5提示优化指南: 用户发现,以特定方式与GPT-5交流能使其响应更智能、更有效。建议包括定义上下文、收集标准、明确目标、设定工具预算、创建早期停止条件和建立安全边界。优化后的提示能使GPT-5以结构化且有用的方式响应,提供直接答案、分步解释和简要行动计划。
  • Microsoft POML (Prompt Orchestration Markup Language): 这是一种新的标记语言,拥有比OpenAI标记更丰富的标签(如角色、任务、示例、图像、文档、表格),正在获得越来越多的支持。

本周的AI更新就到这里,AI的快速发展持续为我们带来惊喜与挑战。感谢您的阅读!



留下评论