GPT-5欲重塑格局,各智能体竞相争锋毫不相让
本周人工智能领域的焦点无疑是GPT-5的发布,它于8月7日正式亮相。在Crowdsourced LM Arena的评测中,GPT-5在文本和编码两项排名中均位居榜首,尤其是在编码方面,其LS分数达到了前所未有的1500分。当然也有业内人士认为只是应对竞争的小幅改进,远没有达到“震撼”效果,且与头部SOTA模型难分伯仲,效果远不及预期,令人失望。
关于GPT-5的详细信息
GPT-5被奥特曼本人誉为迄今为止最智能、最快速、最有用的语言模型,在推理、写作、编码、准确性和速度等多个方面取得了重大进展。与GPT-4引入“专家混合”的核心概念不同,GPT-5的核心理念是“模型混合”。它通过一个路由器系统,能够决定使用哪些工具以及以何种顺序执行多步骤操作。这意味着用户与GPT-5交互时,实际上是与众多不同的模型和工具进行对话。它能将复杂的任务分解成多个步骤,并逐一或并行执行,大幅减少了幻觉并提升了输出的安全性。
GPT-5目前提供Pro、常规(或称主)、Mini和Nano四个版本,并提供最低、低、中、高四种推理级别选择。其上下文长度高达40万个tokens。主版本GPT-5的定价为每百万tokens输入1.25美元,输出10美元,价格合理。Nano版本速度非常快,适用于边缘设备和手机;Mini版本更小更快;而主版本则是全面的主力模型。尽管一些专家(例如Matthew Berman)认为其发布是“重要但非革命性的一步”,但其表现确实“非常非常好”。它已成为Chart GPT中的默认模型,部分Plus订阅用户已可使用,并为企业和开发者提供更可靠的输出和更好的处理能力。此外,一个系统集成了语音搜索、深度推理和画布绘图功能。
在实际测试中,GPT-5展现了一定的能力:
- 成功构建了功能齐全的Excel和Microsoft Word克隆,具备文本格式、列表、图像插入和各种其他编辑功能。
- 能够创建3D魔方模拟器(包括3×3、5×5、10×10甚至20×20的交互式版本)、复杂的《康威生命游戏》、蛇形游戏、双摆物理模拟、逼真的乐高建造器、带有撕裂和风效应的布料模拟、流体动力学、光线追踪以及六边形弹跳球物理等。
- 该模型不仅是文本模型,还是一个多模态、多工具系统,具备图像分析、图像生成和复杂视觉任务处理能力。
- 其生成速度非常快,估计每秒可生成60到80个tokens,并且大多数项目首次尝试就能成功。
- 在软件基准测试(software bench)中取得了非常高的结果。
- 在指令遵循和工具使用方面表现强劲,例如在代理使用(agent use)的Tower Bench上取得了非常高的结果。
- 在ARC 1上取得了非常高的结果,在ARC 2上接近10%(虽然Grok 4在ARC 2上表现更好,接近16%)。
其他值得关注的AI模型和技术进展
本周AI领域除了GPT-5,还有许多非常重要的进展,可谓一日千里,遍地开花:
- OpenAI开源模型 (OSS):OpenAI发布了Apache 2许可下的开源模型,包括1200亿和200亿参数的两个版本。这些模型是开放权重的,可在Olama、Hugging Face、LM Studio、亚马逊、微软和谷歌云等平台下载。它们在语言推理、代码生成、代理工作流和工具使用方面表现强劲,与顶级行业模型不相上下(领先于03 mini,落后于03或O mini)。它们支持可调节的思维链推理级别(高、中、低)或专家混合架构。虽然权重开放,但训练方法和数据并非完全透明。OpenAI还与亚马逊、微软、英伟达等多家公司合作。
- Anthropic Claude Opus 4.1:作为Opus 4的改进版,它在软件工程推理、代理自主任务处理和数据分析方面表现出色,特别擅长处理大型代码库的重构、调试,并能适应各种代码风格。其输出支持高达32,000个tokens,并可进行微调以在即时推理和扩展的逐步推理之间选择。它能产生更自然、更像人类的写作,具有改进的深度、结构和语气。价格保持不变。此外,Claude Code现在支持一键式代码安全审查功能。
- 谷歌Gemini 2.5 Deep Think Model:该模型已通过每月250美元的Gemini Ultra订阅向高级用户和企业开放。该模型的某个版本曾助力赢得7月国际数学奥林匹克金牌。
- Perplexity的Comet浏览器:Perplexity首席执行官Aravind Sharinas表示,其新的Comet浏览器将很快实现对招聘人员和行政助理这两个白领角色的自动化。
- DeepMind Big Sleep:谷歌的这一系统已应用于实际项目,成功发现了SQL Lite数据库中的关键漏洞以及ImageMagick、FFmpeg等广泛使用软件中的20个漏洞,被认为是自动化漏洞研究的重大进展。
- DeepMind Genie 3:这是一款令人惊叹的AI世界模型,可以创建可交互的虚拟世界和高分辨率视频(720p,24帧),用户可以通过文本提示进行创造和修改,并具备记忆功能。
- XAI Grok Imagine:埃隆·马斯克旗下的XAI推出了这款工具,能够从文本提示生成带有音频的15秒视频和图像。
- Quen Image:这款开源(Apache 2许可)的多模态扩散Transformer模型在复杂文本渲染和精确图像渲染方面表现出色。它能够以高保真度创建多行文本布局、段落级语义和精细细节,并能在编辑操作中保持语义意义和视觉真实感。它在各种生成和编辑任务中持续超越现有模型,适用于营销、教育和演示设计。
- Quen 3 Code of Flesh:又一个来自Quen的模型,是一个305亿参数的代码模型,可以在笔记本电脑上运行,在关键编码任务上与Claude 4旗鼓相当。它具有256,000的原生上下文窗口,可扩展至100万。全精度推理需要33GB内存,量化版本仅需18GB。在Web Arena和BFCL的工具使用和工作流集成方面表现出色,并完全开源(Apache 2许可),权重可在Hugging Face和Noodle Scope上获得。
- Falcon H1:来自阿联酋的这款混合Transformer和状态空间模型在数学、科学和编码方面表现强大,拥有从0.5亿到340亿参数的六种尺寸,上下文长度为256,000,支持多语言,并且是开源的。
- Microsoft Cleo框架:Cleo(认知循环通过迭代优化)是一个突破性框架,使非推理型大型语言模型能够发展自己的思维模式并实时调整其推理。它通过运行时自我反思构建和完善推理,创建自己的反馈循环来探索想法、管理内存和标记不确定性。用户可以完全控制设置不确定性阈值、更改或重新执行推理路径。在人文考试中,Cleo将GPT-4.1在纯文本生物医学问题上的准确率从8.55%提升至22.37%,超越了03 high模型。
- The Browser Company的Deer Browser:这款AI浏览器允许用户直接与浏览器聊天、获取摘要、规划和执行任务,无需离开当前页面。它提供Deer Pro计划(每月20美元),类似于Perplexity的Comet浏览器,并致力于成为“AI浏览器战争”的前端。
- Google Jules:谷歌推出的强大AI编码代理,通过Web应用程序访问。它允许用户连接GitHub账户,克隆仓库,制定计划,执行更改,并自动提交GitHub拉取请求(需要用户批准)。它由Gemini 2.5 Pro提供支持,可以并行处理多个任务,并在后台运行,无需用户监控进度。它可用于编写测试、修复错误和更新依赖项。高级功能包括agents MD文件用于编辑上下文、音频更改日志以及与GitHub问题的原生集成。它提供免费入门计划(每天15个任务)以及Google AI Pro和Ultra计划的付费版本(每月20美元或250美元)。Jules已被全球开发者广泛采用,包括谷歌内部项目,并因其自动化日常开发的能力而受到赞扬,但仍建议进行精细任务和用户监督。
- Olama GUI:Olama现在提供了图形用户界面,用户可以轻松选择和下载模型。用户可以拖放文档(如PDF)与文档进行聊天,甚至处理图像、截图和图表等视觉内容。它支持涡轮模式以访问大型云端模型(2350亿参数模型),同时仍可运行本地模型,并可轻松切换不同的AI模型。Olama已从Lama CPP转向其专有引擎,表明其正在构建根本性的新东西。
- Anthropic Persona Vectors:这项研究可以监测和控制语言模型中的性格特征。Persona vectors是控制AI语言模型性格特征的神经网络活动模式,它们像大脑区域一样,会根据不同的情绪或态度而活跃。这些向量可用于监测和检测模型在对话或训练期间的性格变化,防止训练期间出现不必要的性格改变(通过引导模型远离不良特质),以及用于数据过滤,识别会导致负面特质的训练数据。研究人员通过比较模型在表现特定特质(如邪恶、精神病或幻觉)时与不表现时神经激活模式来提取这些向量,并通过注入这些向量来观察相应的行为变化,从而验证了该方法。
- 谷歌Kaggle游戏竞技场(Kaggle Game Arena):一个基准测试工具,可以测试不同模型在各种旨在测试战略思维和问题解决能力的游戏中的表现。
- DeepMind Perch:一个AI模型,用于分析大量的野生动物音频,从而更容易地追踪濒危物种。它是开源的,并具备特殊工具,可以检测训练数据稀缺的物种。
- Cursor AI编辑器:发布了终端编码代理,类似于Claude code或Gemini CLI。
- Lang Smith:一个强大的工具,用于监控和评估代理生命周期中不同组件。它实现了12种AI代理评估技术,包括最终输出正确性、推理过程效率、结构完整性、会话技能和多音调对话,包括轨迹评估、Ragas和算法反馈方法。
AI行业趋势及其他重要动态
- 云成本变化:许多初创公司正从AWS、Google Cloud Platform和Azure转向小型供应商甚至本地部署,以实现成本降低五到八倍和更快的访问速度。这表明过去涌向大型云平台的趋势正在逆转。
- 11 Labs Music:这款多语言模型能够生成带有AI人声和乐器结合的音乐。用户可以控制流派、风格和结构(包括声音和歌词)。11 Labs已与数字版权机构和出版公司达成协议,利用艺术家的作品进行模型训练。
- AI的文化偏见:有研究指出,当前主流AI模型主要基于英语和西方文化假设开发。这导致它们在应用于其他国家不同文化背景时可能会失败甚至适得其反,因为文化差异导致用户不满意。创建文化中立的模型似乎是不可能的,需要为不同文化创建不同的模型。组织不应追求文化中立,而应测试AI系统的文化智能,询问AI系统中存在的文化偏见,以及如何测试文化智能及其技术性能,并由谁提供这方面的专业知识。
- 超级智能的未来:一旦达到超级智能,企业需要考虑如何确保系统访问安全、与人类伦理和公司目标对齐、建立强大的停止按钮和监督协议,并主动与国际监管机构合作,采取透明措施,建立监督和治理伙伴关系。企业应要求模型改进自身的算法、效率和可解释性,同时避免引入风险。超级智能可应用于业务运营的各个方面(产品开发、新产品、营销策略、客户获取、物流和金融),并解决气候、医疗研究、教育和贫困等关键社会问题。其他应用包括科学发现、全球外交、个人助理和长寿研究。政府很可能会将超级智能视为战略资产,并施加限制、要求披露、访问控制、监控、许可和操作限制以防止滥用和控制。政府可能限制团队和数据的流动,并将其用于国家国防和安全领域(情报、网络防御、威胁预测)。不受控制的超级智能如果其目标和行为未完全受控,可能构成生存风险。关于公平、访问和道德责任的问题将会出现,即谁受益以及谁制定规则。其他全球参与者可能会竞相开发或窃取类似系统,从而引发AI军备竞赛。工作治理和社会结构可能迅速变化,需要谨慎管理。
- 高额AI人才薪酬:Meta等公司已将AI模型训练师的薪酬推向新高。有报道称,Andrew Tulock拒绝了Meta提供的6年15亿美元(根据Meta股价浮动)的合作机会,选择留在其坚信的Thinking Machine Lab公司。据称,AI模型训练师的薪酬已经非常高,许多人每年收入500万到1000万美元。
- AI增强而非取代:谷歌前CEO埃里克·施密特认为,人们不应害怕AI的取代,而应拥抱AI的增强作用。8月才刚开始,目前还没有出现大量裁员。

留下评论