GPT-5 正式发布：OpenAI 的全能模型与市场雄心

OpenAI在GPT-4发布两年后，于昨晚（北京时间8月8日）凌晨1时正式推出了备受期待的GPT-5系列模型。此次发布被OpenAI寄予厚望，旨在重新夺回大语言模型领域的领先地位，并简化其日益复杂的模型与产品体系，实现AI的随开随用。OpenAI首席执行官山姆·奥特曼（Sam Altman）亲自现身发布会，称GPT-5是“此前所有模型的巨大飞跃”，并表示拥有GPT-5这样的AI模型，在历史上任何时候都是难以想象的。

核心特性与架构创新

GPT-5最核心的亮点在于其集成模型（integrated model）特性，打通了GPT系列（大语言模型）和O系列（推理模型）。这意味着用户在使用时不再需要手动切换不同模型，GPT-5会自主决定何时需要更深入地思考。这种“统一系统”（One Unified System）设计包含三个核心部分：一个智能高效的基础模型处理常规问题，一个深度推理模型（即GPT-5思维模块或Thinking Mode）用于处理更复杂的难题，以及一个实时路由模块根据对话类型、问题复杂度、工具需求及用户显式指令（如prompt含“仔细思考这个问题”）智能调度模型。这一自适应思考能力被认为是借鉴了Anthropic公司Claude模型的“Thinking Mode”理念。

在模型架构与训练上，预计GPT-5仍将采用MoE（Mixture-of-Experts）架构，参数量可能达到GPT-4的10-50倍，即5-10万亿左右。为了补足高质量训练数据缺口，合成数据在训练集中的占比将持续增加，这也对数据生成技术提出了更高要求。

卓越性能与能力提升

GPT-5在多个关键领域展现出显著进步，被官方誉为“当之无愧的全球第一”。

编程能力（Coding）：OpenAI此次发布最最重视的是GPT-5的编程能力。在代码领域最核心的SWE bench指标上，GPT-5在启动思考时能达到74.9%的成绩。尽管与Claude 4.1的74.5%数据非常接近，且存在OpenAI评分基于“被挑选过”问题数量的争议，但GPT-5无疑重新回到了编程领域的第一梯队。在Cursor中的测试也显示，GPT-5在查找Anthropic Sonnet声称不存在的错误方面表现更优。发布会演示了GPT-5能根据提示词创建功能完整的网站、应用和游戏，如“跳跃球跑者”游戏、学习法语的Web应用（包含抽认卡、测验、定制游戏），以及在Cursor中创建可视化财务仪表盘。
多模态能力：GPT-5是一款完全多模态模型，能理解文本和图像输入。它能够通过截取屏幕截图并将其反馈给自己，显著提升解决问题的能力。在多模态理解（MMMU）基准测试中得分84.2%。其图像生成能力能够根据文本描述生成逼真图像，并能识别图片中的错误并重新生成新图像。OpenAI还强调GPT-5特别擅长创建前端，例如能在大约2分钟内生成Twitter克隆，9秒内生成精美登录/注册页面，并构建功能齐全的金融仪表盘。
创意表达与写作：GPT-5在创意表达和写作方面有明显提升，能够根据上下文生成富有个性与情绪的表达，不再局限于模板化，体现出“智商、情商双高”。
数学能力：在AIME 2025数学评估中，GPT-5 Pro版本在开启推理模式并调用工具下拿下满分成绩（100%），其他版本为96.7%。
Agentic能力：GPT-5在Agent任务中表现出色，能够处理多步骤请求，灵活协调多个工具，并根据上下文智能调整行为策略。这使其更接近AI Agent，注重与现实世界应用场景的深度融合，未来GPT Store中可能会出现更多长任务链逻辑的应用。
幻觉（Hallucination）与安全性（Safety）：GPT-5在幻觉评分体系中的提升非常大。官方声称，与GPT-4o相比，GPT-5的事实错误率降低了约45%；在深度思考模式下，错误率更是比O3大幅下降80%。GPT-5引入了“安全完成”（Safe Completion）这一全新安全训练方式，模型将专注于输出的安全性，而非简单拒绝用户意图。在处理激进或商业计划等问题时，模型能给出迄今为止最好的安全建议和专业验证计划。

可访问性与定价策略

GPT-5系列模型分为大杯GPT-5、中杯GPT-5 Mini和小杯GPT-5 Nano。OpenAI官方声称所有用户当天即可使用GPT-5。它已成为ChatGPT的新默认模型，向所有Plus、Pro、Team和免费用户推出。免费用户每5小时可发送10条消息，超过限额后将自动切换到GPT-5 mini。Pro用户可无限制访问GPT-5及GPT-5 Pro。

在API平台上，GPT-5展现出极具竞争力的价格。GPT-5的输入价格为每百万个token 1.25美元，输出价格为每百万个token 10美元。这比纸面能力相近的Claude Opus 4.1便宜约10倍。如此低廉的价格被认为是OpenAI工程能力的体现，可能通过模型小型化、MoE架构优化或大量优质数据/合成数据实现成本降低。

市场反响与争议

尽管能力显著提升，GPT-5的发布也伴随着一些争议和“乌龙事件”。发布会PPT图表出现了“52.8比69.1还大”等明显的数字错误，引发了对OpenAI工程师专业性的质疑。一些用户和评论认为，整体模型表现更像是“GPT 4.6而已”，而非一个绝对的飞跃性成果，属于“渐进式优化”而非颠覆性突破。甚至有人直言“感觉就像4.7而不是5.0”。

在实际测试中，虽然在代码能力上有了进步，但有观点认为“肯定还没有到超越Claude 4.1的水平”。一些用户在实际使用中反馈，在处理复杂编程任务时GPT-5仍未能完全替代人工查阅文档。此外，GPT-5的上下文窗口（Context Window）扩展幅度较小，仍在数十万个token的低水平，与Gemini 2.5 Pro能分析一百万个token相比仍有差距。

OpenAI的老对手伊隆·马斯克（Elon Musk）也趁机“蹭热度”，表示Grok 4在ARC-AGI测试中击败了GPT-5，并剧透Grok 5将于今年年底前发布。

市场影响与未来展望

GPT-5的发布被视为OpenAI“卷死友商”，重新夺回在特定领域（如Claude在编程模式上的优势）市场份额，并巩固其在所有大语言模型领域领先地位的野心之作。其在编程能力上的提升，结合OpenAI更强的生态绑定和产品分发渠道，可能重创Anthropic在编程市场的API收入结构，Anthropic目前超过六成的年化收入来自API。

Altman也提到了医疗健康领域的应用，强调GPT-5在健康领域表现最佳。在HealthBench评估中得分远超以往模型，能够解析医疗报告，提供个性化建议，帮助用户与医生沟通。这表明医疗健康也将是OpenAI未来重点关注的领域。

总而言之，GPT-5作为一款全能模型，在自适应思考、编程、创意写作、多模态理解以及幻觉和安全性方面的显著提升，加上其极具竞争力的价格，都预示着其在未来大模型竞争中将带来巨大冲击。尽管存在一些质疑和有待验证的领域，GPT-5的发布无疑是OpenAI巩固其行业第一地位的重要一步，并有望进一步推动AI在各行各业的深度融合与应用。

Let's Make AGI Real

留下评论取消回复