浪奔浪流,浪里个浪
本周各类AI重大发布继续上演。从备受瞩目的Grok 4模型详细披露,到Meta在AI领域的战略性重组与人才收购,再到各类新型AI工具与应用、前沿技术概念的涌现,以及随之而来的监管和安全挑战。长江后浪推前浪,一浪更比一浪强。浪里个浪。
一、AI模型:性能突破与开源浪潮
AI模型正以前所未有的速度迭代,并在性能上不断刷新纪录,同时开源模型也扮演着越来越重要的角色。
Grok 4:博士级能力与多代理协作 Grok 4是当前AI领域的热点,其官网显示表现非常出色。
- 卓越性能:据称,Grok 4在所有学术学科中达到了博士级别能力,SAT成绩完美达到100%,推理能力超越人类水平。在“人类最后一场考试”等众多测试中表现优异,推理能力远超竞争对手。在AI分析智能指数(AI Index)上,Grok得分为73,高于其他所有模型。
- 训练与规格:其训练计算量是Grok 2的100倍,分为预训练和后训练强化学习两个阶段。模型大小据传为2.4万亿参数,与此前最大的Claude Opus相当。上下文窗口容量可能为128k和256k(通过API使用时为256k)。
- 版本与功能:Grok有多个版本,包括单一代理版本和多代理版本Grok 4 Heavy,后者允许多个并行代理共享洞察并协作。Grok 4经过训练,能够进行高级工具使用,实时访问Twitter (X)。目前可通过Grok网站、iOS和Android应用、以及集成在X(原Twitter)中访问。
- 未来展望:目前Grok在多模态功能上较弱,即使在图像理解方面也“相当糟糕”,但计划在未来几个月内添加。预计8月将提供专门的编码模型,9月将推出多模态功能,10月将推出视频功能。“Foundation model v7”正在训练中,该模型将改进视频功能,并应用于真实世界测试、商业游戏开发、生物医学研究等领域。
- 定价:Grok 4的价格与Claude Opus相似,输入令牌为每令牌3美元,模型响应为每令牌15美元。订阅费用为每月30美元,Super Grok Heavy版为每月300美元,提供多代理并行执行。
开源模型与商业化进展 开源AI模型持续迭代,不断提升性能,尤其是在大参数量和特定任务方面。
- 百度 Ernie 4.5:百度发布了Ernie 4.5系列模型,采用Apache 2.0许可证,可用于商业用途 。其中最大的模型拥有4240亿总参数,活跃参数高达470亿 。官方评估显示,Ernie 4.5在多数典型基准测试中超越了DeepSeek V3等其他开源大型语言模型 。
- 腾讯 Hunyuan A13B:腾讯推出了Hunyuan A13B模型,这是一款MoE(混合专家)模型,拥有800亿总参数,但仅有130亿活跃参数 。它支持“快速思考”和“慢速思考”两种模式,在数学和问答等基准测试中展现出卓越的代理(Agentic)性能 。
- Deep SWE Engineer (Together AI):一款完全开源的编码代理,使用强化学习在Qwen 32B基础模型上训练,在开源权重模型中处于领先地位。
- Deepseek R1 T2 Chimera (TNG):一家德国公司开发的开源模型,基于MIT许可证,通过合并Deepseek R1等模型,实现了200%更快的速度,并改进了输出紧凑性和基准性能。
- 智谱 AI (Zhipu AI) 和清华大学 GLM 4.1V:一款90亿参数的多模态推理模型,在图像和文本推理方面表现出色,甚至超越了Qwen 2.5V L72B等更大的模型 。
- 苹果 DiffCoder:苹果与香港大学合作发布了一款70亿参数的扩散式LLM,用于代码生成,与传统的自回归LLM不同,它能够一次性预测所有tokens 。
- Hugging Face Small LM3 (Small LM3):一个小型(30亿参数)的开源模型,具有多语言、长上下文支持,表现良好,支持六种语言。
其他值得关注的模型
- Moonshot AI(中国) 的 Kim研究员:一款自主研究代理,在性能上超越了OpenAI、DeepMind Research和Gemini 2.5 Pro。
- Claude Neptune:尚未发布,据称具有先进的数学推理能力。
- Perplexity Max Plan:每月200美元,提供对前沿模型的无限访问,但提醒用户务必核实其提供的信息。
- Gemini Nano:目前已在Chrome浏览器中可用,需要用户手动激活。
- Gemini 2.5:可与Mem0(一个开源的记忆层项目)结合,为其聊天机器人添加长期记忆。
二、企业战略重塑与人才争夺
AI巨头之间的竞争日益激烈,尤其体现在组织架构调整、人才争夺和战略投资上。
Meta的AI战略重塑 Meta正在AI领域进行大规模投入,通过收购和重组来强化其AI实力。
- 组织架构调整:Meta重组了其AI组织。FAIR (Facebook AI Research) 仍然存在,这是一个小型且负盛名的实验室,专注于基础AI研究,由Yann LeCun领导。Meta创建了一个新的组织:MSL (Meta Super Intelligence Labs),整合了所有主要的AI工作,包括生成式AI、Llama模型、大规模模型训练和应用AI开发。MSL由前Scale AI首席执行官Alexandra Wang和前GitHub首席执行官Nat Friedman共同领导。
- 重金挖角:Meta挖走了两名高级人才(前GitHub首席执行官Ned Friedman和前Y Combinator合伙人Daniel Gross),并收购了他们价值15亿美元的基金。Meta还成功挖角苹果AI模型负责人Poe,交易包括超过2亿美元的多年期薪酬。Meta已从OpenAI、DeepMind和Anthropic等公司招募了超过11位顶尖专家,其中有8名来自OpenAI。这些人才的薪酬高达数千万乃至数亿美元。
AI公司间的人才竞争 OpenAI也在积极从特斯拉、xAI和Meta等公司挖角顶尖人才,AI公司之间的人才争夺日益激烈。OpenAI首席执行官Sam Altman甚至在一份内部备忘录中对此表示不满,称“有人闯入了我们的家”。
Anthropic的人才流失与经济研究 Anthropic失去了两名关键领导人物:Boris Churnney(Claude Code的开发负责人)和Kat Woo(Claude Code的产品经理),两人均加入了AnySphere(Cursor的母公司)。尽管Anthropic年收入已达40亿美元,估值高达600亿美元,但其在研发和人才方面的投入也导致了巨额亏损。Anthropic还启动了“经济未来计划”,旨在研究AI对劳动力市场和全球经济的影响 。此前,Anthropic CEO Dario Amodei曾预测AI可能在未来1-5年内淘汰一半的入门级白领工作,导致失业率高达20% 。
三、AI工具与应用创新
AI工具和应用层出不穷,覆盖了编码、浏览、医疗、数据提取、教育等多个领域。
- 编码与开发工具:
- Anthropic Claude Code:上个月发布,可在终端、VS Code和PyCharm中使用,获得大量好评。
- Deep SWE Engineer (Together AI):一款完全开源的编码代理。
- Perplexity Comet:AI驱动的浏览器,首先向每月200美元的Max订阅用户开放。
- Hollow One (H Company) 的Surfer H网络浏览代理:开源行动模型驱动,在Web Voyager基准测试中排名第一,能够自动化多步骤浏览器工作流程,表现优于OpenAI Operator、Gemini Flash等。
- Retriever AI (浏览器扩展):一个Chrome扩展,可以通过提示与LinkedIn交互,绕过限制,用于线索生成、研究、数据提取、发送邮件和消息,甚至安排重复性任务,大部分功能免费。
- AI极大地加速了长寿研究和药物开发。
- 在医疗诊断中有多种应用。
- Microsoft MAI DXO:一款新的AI工具,在诊断复杂医疗案例方面超越了医生,但尚未向公众开放。
- Google Med-PaLM 2 7B:已更新并开源,可分析从胸部X光片到皮肤状况的各种信息,具有最先进的准确性。
- 百度推出了AI视频生成器。
- 腾讯Hanyuan 3D21:生成3D图像(计算机表示),完全开源,具有基于物理的渲染和逼真的材质。
- Gemini CLI:在终端中工作,可分析图像内容并使用相关关键字重命名文件,以优化搜索引擎。
- Runway:一家专注于AI视频编辑和生成的公司,计划发布一款新的互动式AI游戏体验,其在好莱坞的应用而闻名。Runway的策略是专注于AI工具链而非模型本身。
- Character AI:支持实时视频生成。
- Google为教育领域引入了30余款新的AI工具,其中包括专为教育定制的Gemini应用版本。Gemini AI套件现已免费提供给所有Google Workspace for Education账户,支持生成教案、个性化内容创建、以及让教师创建自定义AI专家(称为“Gems”)等功能。
- 会议中AI笔记机器人数量超越人类参与者的情况日益普遍。
- Google发布了一款名为Doppel的新应用,利用AI帮助用户可视化不同服装在自己身上的效果。
- Google推出了最新的文本到图像模型Imagen 4及其超分辨率版本Imagen 4 Ultra。新模型主要关注提示遵循、空间布局、文本保留等更精细的细节。
- Orchids:一个无需代码即可使用AI创建精美应用和网站的平台。
四、核心技术与概念
AI领域的技术和概念不断演进,为模型的性能提升和应用拓展提供基础。
- 能量基Transformer (EBTs):一种能够进行可泛化推理的系统,可以在进行每一个预测时进行思考,通常比现有模型具有更好的泛化能力。
- AI幻觉:AI模型产生幻觉的原因是LLM并不理解事物本身,它只知道在给定上下文中单词(或更准确地说是令牌)出现的概率。模型只是根据概率选择下一个最可能的令牌,不具备知识。
- 提示工程与上下文工程:除了提示工程(Prompt Engineering),上下文工程 (Context Engineering)是一个更复杂的领域。它旨在在正确的时间以正确的格式提供正确的信息,以提高模型响应的质量。推荐采用“4D方法”来创建有效的提示:解构 (Deconstruct)、诊断 (Diagnose)、开发 (Develop) 和交付 (Deliver)。
- 路由模型:Katanimo Labs开发了一款价值15亿美元的路由模型,实现了93%的准确率。该模型能够智能地将用户查询映射到最合适的LLM,从而有效降低总体成本。其特点是体积小、速度快、准确率高。
五、硬件与基础设施
AI模型的快速发展对计算硬件和能源基础设施带来了巨大需求,促使行业在芯片制造和数据中心能源管理方面进行创新。
- OpenAI的芯片战略:OpenAI否认了使用Google TPUs的计划,并已与英伟达GPUs进行了大量投资 。他们正在开发自己的芯片以与TPU竞争,并计划在今年完成其芯片设计的“tape out”(流片)里程碑 。
- 数据中心能源管理:Emerald AI是一家由英伟达等投资的新兴公司,专注于将数据中心更深地连接到能源网格 。他们提供软件,允许数据中心根据当地电力使用情况动态调整AI工作负载,以减少对电网的压力 。
- 半导体供应链挑战:有报道称,在TSMC亚利桑那州工厂生产的芯片被运回台湾进行封装 。这凸显了台湾在全球芯片供应链中的核心地位 。
六、研究与技术进展
AI研究持续探索模型的扩展性、推理能力、性能预测及误差分析等核心议题。
- LLM推理效率优化:一项研究探讨了如何通过自适应分支树搜索来优化LLM的推理计算,该方法在各种基准测试中均优于其他模型 。
- AI科学研究复现能力:一项研究旨在评估AI代理复现科学结果的能力,结果显示Claude 3 Opus表现最佳,能复现约40%的速度提升 。
- AI任务长度预测:Meter AI发布了LLM任务完成时间线的最新评估结果。Claude 3 Opus现在能够以50%的成功率完成80分钟的任务 。
- 大型系统性能预测:一篇论文提出了一种基于文本到文本回归的模型来预测大型系统(如Google的Borg计算集群)的性能 。
- 数学推理与通用能力迁移:研究发现,强化学习能更温和地促进正向迁移,使得数学推理能力的提升能够更好地泛化到其他推理任务 。
- 大型语言模型的错误关联性:研究发现,在HELM排行榜上,模型在错误答案上的一致性高达60%,表明即使是不同架构和开发者训练的模型也可能犯类似的错误 。
七、行业动态与市场风向
AI行业正经历快速变革,资本投入巨大,市场格局和就业市场也随之波动。
- 大型模型训练成本:现在每月有两个或更多需要超过1000万美元训练成本的AI模型发布,显示了行业变革的速度。使用超过10^23浮点运算训练的AI模型数量从2017年的两个跳跃到2024年的100倍。
- 数据行业整合:数据行业正在整合,Databricks以10亿美元收购Neon,Salesforce以80亿美元收购Informatica。
- 企业巨头市值:英伟达 (Nvidia) 成为首家市值达到4万亿美元的公司。
- 就业市场:微软于7月2日裁员9000人。
- 数据抓取与隐私:Cloudflare已引入对AI数据抓取工具的默认阻止设置,这意味着网站所有者需明确授权机器人才能收集数据。
八、争议与新兴应用
AI发展带来便利的同时,也引发了新的争议和伦理挑战。
- Cursor定价丑闻:Cursor最近因为改变定价结构(从每月500次请求改为基于令牌的模型)而引发争议,导致价格大幅上涨,许多客户正在取消订阅。
- Clue/Truly助学工具:Roy Lee创办的Clue(最初名为Interview Coder)是一款AI工具,他曾因用其作弊而被哥伦比亚大学停学。Clue通过隐藏的浏览器窗口分析在线对话,提供实时笔记、上下文和建议问题。该公司的企业产品推出后,年化收入飙升至700万美元,并获得了Andreessen Horowitz 1500万美元的A轮融资。另一位哥伦比亚大学学生Patrick Shen则开发了名为“Truly”的产品,旨在帮助检测使用Clue的作弊者。
九、政策与安全
AI的快速发展也带来了生物安全、网络安全和监管方面的挑战,促使各国政府和研究机构思考应对策略。
- 生物安全风险预测:一项研究预测,在AI的帮助下,人为流行病(导致超过10万人死亡)的概率在2028年前从0.3%上升到1.5% 。
- 网络安全任务长度预测:一项分析发现,目前的AI模型能够以50%的成功率解决持续6分钟的任务,并且这种能力每5个月左右就会翻一番 。这意味着AI在网络安全(特别是攻击性网络攻击)方面的能力增长迅速 。
- 美国AI监管辩论:美国国会的一项综合预算法案中,一项曾旨在禁止各州对AI进行十年监管的条款被删除 。该禁令遭到参议院99票对1票的压倒性反对而被移除 。批评者认为,在联邦层面AI监管停滞不前的情况下,禁止州层面立法是不民主且危险的 。
- 丹麦的版权法:丹麦计划修改版权法,赋予个人对其身体特征、面部特征和声音的版权,旨在应对深度伪造(Deepfake)技术带来的挑战 。
AI的发展看不到任何减速的迹象,反而随着人才争夺战的白热化,砸钱的游戏已达到顶峰。我们期待更多创新和突破的出现,同时也越来越需要密切关注其带来的挑战和影响。说不定从今往后的新闻不再是持续的进展,而是持续的灾难。

留下评论