OpenAI在GPT-4发布两年后,于昨晚(北京时间8月8日)凌晨1时正式推出了备受期待的GPT-5系列模型。此次发布被OpenAI寄予厚望,旨在重新夺回大语言模型领域的领先地位,并简化其日益复杂的模型与产品体系,实现AI的随开随用。OpenAI首席执行官山姆·奥特曼(Sam Altman)亲自现身发布会,称GPT-5是“此前所有模型的巨大飞跃”,并表示拥有GPT-5这样的AI模型,在历史上任何时候都是难以想象的。
核心特性与架构创新
GPT-5最核心的亮点在于其集成模型(integrated model)特性,打通了GPT系列(大语言模型)和O系列(推理模型)。这意味着用户在使用时不再需要手动切换不同模型,GPT-5会自主决定何时需要更深入地思考。这种“统一系统”(One Unified System)设计包含三个核心部分:一个智能高效的基础模型处理常规问题,一个深度推理模型(即GPT-5思维模块或Thinking Mode)用于处理更复杂的难题,以及一个实时路由模块根据对话类型、问题复杂度、工具需求及用户显式指令(如prompt含“仔细思考这个问题”)智能调度模型。这一自适应思考能力被认为是借鉴了Anthropic公司Claude模型的“Thinking Mode”理念。
在模型架构与训练上,预计GPT-5仍将采用MoE(Mixture-of-Experts)架构,参数量可能达到GPT-4的10-50倍,即5-10万亿左右。为了补足高质量训练数据缺口,合成数据在训练集中的占比将持续增加,这也对数据生成技术提出了更高要求。
卓越性能与能力提升
GPT-5在多个关键领域展现出显著进步,被官方誉为“当之无愧的全球第一”。
- 编程能力(Coding):OpenAI此次发布最最重视的是GPT-5的编程能力。在代码领域最核心的SWE bench指标上,GPT-5在启动思考时能达到74.9%的成绩。尽管与Claude 4.1的74.5%数据非常接近,且存在OpenAI评分基于“被挑选过”问题数量的争议,但GPT-5无疑重新回到了编程领域的第一梯队。在Cursor中的测试也显示,GPT-5在查找Anthropic Sonnet声称不存在的错误方面表现更优。发布会演示了GPT-5能根据提示词创建功能完整的网站、应用和游戏,如“跳跃球跑者”游戏、学习法语的Web应用(包含抽认卡、测验、定制游戏),以及在Cursor中创建可视化财务仪表盘。
- 多模态能力:GPT-5是一款完全多模态模型,能理解文本和图像输入。它能够通过截取屏幕截图并将其反馈给自己,显著提升解决问题的能力。在多模态理解(MMMU)基准测试中得分84.2%。其图像生成能力能够根据文本描述生成逼真图像,并能识别图片中的错误并重新生成新图像。OpenAI还强调GPT-5特别擅长创建前端,例如能在大约2分钟内生成Twitter克隆,9秒内生成精美登录/注册页面,并构建功能齐全的金融仪表盘。
- 创意表达与写作:GPT-5在创意表达和写作方面有明显提升,能够根据上下文生成富有个性与情绪的表达,不再局限于模板化,体现出“智商、情商双高”。
- 数学能力:在AIME 2025数学评估中,GPT-5 Pro版本在开启推理模式并调用工具下拿下满分成绩(100%),其他版本为96.7%。
- Agentic能力:GPT-5在Agent任务中表现出色,能够处理多步骤请求,灵活协调多个工具,并根据上下文智能调整行为策略。这使其更接近AI Agent,注重与现实世界应用场景的深度融合,未来GPT Store中可能会出现更多长任务链逻辑的应用。
- 幻觉(Hallucination)与安全性(Safety):GPT-5在幻觉评分体系中的提升非常大。官方声称,与GPT-4o相比,GPT-5的事实错误率降低了约45%;在深度思考模式下,错误率更是比O3大幅下降80%。GPT-5引入了“安全完成”(Safe Completion)这一全新安全训练方式,模型将专注于输出的安全性,而非简单拒绝用户意图。在处理激进或商业计划等问题时,模型能给出迄今为止最好的安全建议和专业验证计划。
可访问性与定价策略
GPT-5系列模型分为大杯GPT-5、中杯GPT-5 Mini和小杯GPT-5 Nano。OpenAI官方声称所有用户当天即可使用GPT-5。它已成为ChatGPT的新默认模型,向所有Plus、Pro、Team和免费用户推出。免费用户每5小时可发送10条消息,超过限额后将自动切换到GPT-5 mini。Pro用户可无限制访问GPT-5及GPT-5 Pro。
在API平台上,GPT-5展现出极具竞争力的价格。GPT-5的输入价格为每百万个token 1.25美元,输出价格为每百万个token 10美元。这比纸面能力相近的Claude Opus 4.1便宜约10倍。如此低廉的价格被认为是OpenAI工程能力的体现,可能通过模型小型化、MoE架构优化或大量优质数据/合成数据实现成本降低。
市场反响与争议
尽管能力显著提升,GPT-5的发布也伴随着一些争议和“乌龙事件”。发布会PPT图表出现了“52.8比69.1还大”等明显的数字错误,引发了对OpenAI工程师专业性的质疑。一些用户和评论认为,整体模型表现更像是“GPT 4.6而已”,而非一个绝对的飞跃性成果,属于“渐进式优化”而非颠覆性突破。甚至有人直言“感觉就像4.7而不是5.0”。
在实际测试中,虽然在代码能力上有了进步,但有观点认为“肯定还没有到超越Claude 4.1的水平”。一些用户在实际使用中反馈,在处理复杂编程任务时GPT-5仍未能完全替代人工查阅文档。此外,GPT-5的上下文窗口(Context Window)扩展幅度较小,仍在数十万个token的低水平,与Gemini 2.5 Pro能分析一百万个token相比仍有差距。
OpenAI的老对手伊隆·马斯克(Elon Musk)也趁机“蹭热度”,表示Grok 4在ARC-AGI测试中击败了GPT-5,并剧透Grok 5将于今年年底前发布。
市场影响与未来展望
GPT-5的发布被视为OpenAI“卷死友商”,重新夺回在特定领域(如Claude在编程模式上的优势)市场份额,并巩固其在所有大语言模型领域领先地位的野心之作。其在编程能力上的提升,结合OpenAI更强的生态绑定和产品分发渠道,可能重创Anthropic在编程市场的API收入结构,Anthropic目前超过六成的年化收入来自API。
Altman也提到了医疗健康领域的应用,强调GPT-5在健康领域表现最佳。在HealthBench评估中得分远超以往模型,能够解析医疗报告,提供个性化建议,帮助用户与医生沟通。这表明医疗健康也将是OpenAI未来重点关注的领域。
总而言之,GPT-5作为一款全能模型,在自适应思考、编程、创意写作、多模态理解以及幻觉和安全性方面的显著提升,加上其极具竞争力的价格,都预示着其在未来大模型竞争中将带来巨大冲击。尽管存在一些质疑和有待验证的领域,GPT-5的发布无疑是OpenAI巩固其行业第一地位的重要一步,并有望进一步推动AI在各行各业的深度融合与应用。

留下评论