2025年8月5日——可能是一个注定载入AI史册的日子。当全球顶尖的AI巨头OpenAI、Google DeepMind和Anthropic不约而同地抛出各自的重磅模型。其中最令人侧目的,莫过于曾因“闭源”策略饱受争议的OpenAI,正式宣布开源其全新一代对话模型——GPT-OSS系列。这不只是一次简单的模型发布,更是OpenAI自2019年GPT-2之后首次开源对话模型,宣告着其战略的重大转变,如同一次AI领域的地震,其震波正迅速从闭源模型波及到整个行业。其一统江湖的司马昭之心昭然若揭。
一、GPT OSS:双子星闪耀,定义“工业级可用”开源模型
OpenAI此次推出的GPT OSS系列包含两款模型,旨在满足不同用户和硬件环境的需求:
- GPT OSS 120B(1200亿参数):这款巨无霸模型,拥有1170亿参数和51亿活跃参数。它专为数据中心、高端台式机和笔记本电脑设计,可以在单个H100 GPU上运行。在参数量和硬件成本不到GPT3235B模型一半的情况下,其性能甚至超越了后者。
- GPT OSS 20B(200亿参数):作为中等规模的模型,它被定位为“大多数用户在日常生活中将使用的版本”,可在大多数台式机和笔记本电脑上运行。它尤其适用于对延迟敏感的本地或特定专业应用场景。
这些模型被誉为“真正意义上的工业级可用大模型”,展现了OpenAI前所未有的诚意,让社区得以深入了解其核心能力。
二、为何“闭源”巨头选择“开源”?一场策略的剧变
OpenAI长期以来被戏称为“CloseAI”,其闭源策略一直是业内争论的焦点。然而,今年早些时候DeepSeek等开源模型的异军突起,以及OpenAI首席执行官Sam Altman在1月31日公开承认“闭源是历史发展的错误方向”,无疑加速了OpenAI拥抱开源的步伐。此次GPT OSS的开源,被视为对开源社区巨大商业价值和潜力的积极回应。
OpenAI此举,无疑是对其他科技巨头的一次“敲打”。有观点认为,相较于谷歌只开源小尺寸模型、马斯克只开源过时模型,以及Meta LLaMA模型在开源策略上的争议,此次GPT OSS的发布方式无疑是最具诚意的开源举动。
三、性能巅峰:开源SOTA大模型的诞生
GPT OSS系列模型在多项基准测试中表现出令人惊叹的性能,甚至追平或超越了当时性能最强的O4级别闭源模型,刷新了开源模型的上限。压力给到了DeepSeek和Qwen这一边,国货要加油了!
- 全面超越:GPT OSS 20B的能力介于O3和O4模型之间,而GPT OSS 120B的能力则直接达到了O4模型级别,在数学推理、编程以及“人类终极测试”(Humanity's Last Exam)等评估指标上,与O4IN模型不相上下。
- 代码能力:在“Competition Code Force”等挑战性代码基准测试中表现出色,令人印象深刻。
- 推理能力:在旨在抵御记忆和其他传统基准测试饱和问题的“Humanity's Last Exam”中,GPT OSS模型展现出与O3级别模型相当或相似的“了不起”成就。
- 数学能力:在数学基准测试中,OpenAI的开源模型“字面上平分秋色”,准确率几乎达到饱和状态(例如98%、96%、99%),这表明未来的数学基准测试可能需要革新。
- 科学与通用问题:在GPQA和MMLU(包括博士科学级别问题和标准问题)测试中,GPT OSS系列开源模型几乎全面达到了O3和O4 Mini的水平。
- 工具调用与代理能力(Towel Bench):这一基于零售客户服务场景的基准测试,旨在评估AI代理在动态多轮对话中与API工具交互的能力。在这个对未来AI代理应用至关重要的领域,20B模型与O3和O4 Mini的差距不大,而1200亿参数模型则表现“极其出色”。该系列模型针对智能体任务以及思维链推理进行了专门优化,并在沉浸式推理、工具调用和Agent开发等方面都表现得非常经验,被誉为目前当之无愧的SOTA(State-Of-The-Art)开源大模型。
四、高效运行与核心技术:消费级显卡也能驾驭
GPT OSS模型在硬件要求方面展现出极高的效率,真正实现了“消费级显卡可用”。
- 得益于先进的MOE(Mixture of Experts)架构以及原生的FP4混合精度支持,GPTOSS20B模型在最低14G显存上即可运行,推理仅需16G显存,微调仅需24G显存。
- 推理速度极快:在3090显卡上能达到40 token/秒,而在5090显卡上更是能达到惊人的200 token/秒。
- 对于更高要求的O3级别模型(对标Depsre1),单张RTX 4090显卡即可运行;而运行目前推理性能最强的O4级别大模型,单张A100显卡即可。
- 此外,GPT OSS模型还支持各类主流CPU及推理框架进行部署和调用,同时支持CPU加GPU混合推理。
在技术架构上,GPT OSS是MOE和专家模型的结合,并采用了目前最先进的分组多查询注意力机制,更好地平衡了模型性能与实际响应效率。它与O4模型采用了完全相同的训练流程,包括模型预训练、全量指令微调和RL强化学习后训练(RLHF)三个阶段。相较于DPSR1,GPTOSS模型采用了更加严格的“无间COT对齐方法”,使得推理能力更加高效严谨。
GPT OSS还支持手动设置模型的推理强度,用户可以根据需求在响应速度和解决复杂问题能力之间进行权衡。此外,它支持工具调用、结构化输出等功能,并提供完整的推理过程,方便开发者调试和验证。
五、挑战与局限:幻觉与情感的边缘
尽管GPTOSS系列模型表现卓越,但它们并非完美无缺,仍存在一些挑战和局限性:
- 幻觉问题:这些模型存在较高的幻觉率。在专门设计用于引发幻觉的基准测试中,20B模型在特定测试中幻觉率达到91%、53%和49%,而更大的120B模型在其中一项测试中幻觉率达到78%。视频中强调,推理系列模型比非推理模型更容易产生幻觉,因此用户必须始终对模型的输出进行事实核查。
- 情感智能与创意写作:在EQBench 3等情感智能相关基准测试中,GPT OSS模型并未位居榜首,落后于Deepseek V3、DeepSeek R1、GLM 4.5和Kimmy K2 Instruct等闭源或较早发布的模型。在创意写作(包括长篇创意写作)方面,这些模型也似乎不是最佳选择。虽然与耗费数百万美元研发的顶尖闭源模型进行比较可能“不公平”,但即便与其他一些开源模型相比,GPT OSS在这些领域也可能略逊一筹。
六、改变格局:AI竞争的终结与新机遇的爆发
OpenAI此次开源,被认为是“竞争的终结”,将彻底改变AI行业的竞争格局。
- 竞争重塑:许多公司此前依赖OpenAI模型闭源的现状蓬勃发展,但现在OpenAI已经消除了这一“底牌”。Meta、Quen、DeepSeek等公司将被迫更努力地创新,因为OpenAI的开源模型将与它们的产品达到相同甚至更高的水平。DeepSeek R2曾被誉为“GPT5杀手”,如今DeepSeek的工程师们面临巨大压力,需要拿出更惊艳的产品才能在OpenAI的开源攻势下脱颖而出。
- OpenAI的生态磁力:通过开源模型及其对开发者的支持,OpenAI很可能吸引并留住更多用户,使得基于OpenAI模型进行开发比使用其他任何模型都更容易,从而巩固其生态系统。
- 巨大的新市场:此次开源将为AI构建带来前所未有的新机遇,特别是在以下领域:
- HIPPA(健康保险流通与责任法案)合规应用:过去因数据隐私法而难以合规的AI自动化应用,现在将变得容易实现,从而开辟了全新的市场份额。
- 无API成本:用户将不再需要支付API调用费用,只需一次性的硬件投资。
- 数据隐私与本地化:数据将不会离开用户的设备,默认是私密的,并且可以离线工作,无需互联网连接。
- 模型可修改性:用户可以自行修改这些模型,这对为企业提供模型微调服务的公司来说是一个巨大的机遇。
这意味着AI将以我们前所未见的方式“吞噬经济”,从政府到各种企业,用例将是“超乎寻常”的。
七、灵活部署与未来展望
作为一款开源模型,GPT OSS提供了多种灵活的部署和调用方式:
- 本地部署:用户可以从Hugging Face或魔搭社区下载模型权重,使用Transformer库调用。更简便的方法是直接下载Ollama并选择GPT OSS模型,Ollama会自动下载原始的FP4混合精度模型并开始对话。企业级部署则推荐使用VM或S级Lambda等推理框架。
- 在线调用:可以直接在Hugging Face主页进行对话测试,或选择OpenRouter等在线模型服务提供商。也可通过API Key进行远程调用和Agent智能体开发。
GPT OSS系列模型采用Apache 2.0开源许可证,允许任何人或组织自由使用和商业化部署。目前,Hugging Face、VLM、AMLM Studio等多家平台或工具厂商已对其提供支持。
总而言之,OpenAI此次开源GPT OSS系列模型,不仅在性能上达到了顶尖水平,更以其开放性策略打破了行业壁垒,迫使竞争对手加速创新,同时也为全球开发者和企业开启了全新的AI应用和商业模式。这无疑预示着,大模型技术将更快地推动开源大模型技术社区的发展,为全球的开发者和研究者提供强大的工具和平台,共同加速大模型技术的创新与应用。AI的未来,从未如此开放,也从未如此激动人心。

留下评论