OpenAI越玩越复杂：发布GPT-O3和O4 Mini：工具调用、记忆及图像推理

最近OpenAI 进入春汛，接连召开发布会，让人不得不报道一下。前不久又发布了最新M2C（Model2Consumer）模型系列（直接服务），包括o3、o4-mini 以及 o4-mini-high。本次更新被认为是 OpenAI 又一个阶段里程碑，预示着智能与实用并重的 AI 工具的诞生，差不多又抢了智能体Agent的很多饭碗，继续宣布告着它的遥遥领先。

OpenAI 全新 o 系列模型概览

此次发布的 o 系列模型被认为是 OpenAI迄今为止最聪明的模型，旨在取代之前的 o1、o3-mini 和 o3-mini-high 模型。值得注意的是，这些o 系列模型均为推理模型或思考模型，这意味着它们在生成回复前会进行更深层次的后台思考。

模型迭代：基准测试结果表明，o3 的性能优于 o3-mini 和已被取代的 o1，而 o4-mini 又在 o3 的基础上有所提升。尽管 o4-mini-high 的具体基准数据未完全展示，但普遍认为它是目前 ChatGPT 推理能力最强的模型。
编程能力：特别值得一提的是，o4-mini 在编程测试中取得了优异的成绩，据称已达到全球排名前 200 位程序员的水平。
视觉推理的差异：在视觉推理能力方面，o3 的得分（82.9）略高于 o4-mini 的得分（81.6），这暗示在处理纯粹的视觉问题时，o3 可能表现更佳. 然而，在实际案例中，o4-mini-high 在视觉推理方面展现了卓越的性能，例如能够识别地铁站地点和通过分析公园照片逐步缩小范围并准确识别地点。OpenAI 强调其模型现在能够“思考图像”，这涉及到创建不同的图表进行并排分析，以理解图像的细微之处，并根据提出的问题给出相关的答案，从而进行围绕图像的链式思考推理。

核心功能亮点：视觉推理与工具调用

本次发布最引人注目的两项核心功能是新增的视觉推理能力和全面支持工具调用。

颠覆性的视觉推理能力：这项功能并非简单的图像识别和文字提示词推理的结合。新的模型能够直接使用图像进行思考，并在内部的推理思维链中主动地、多步骤地与图像进行交互分析。为了实现这一目标，模型会调用基础的图像处理工具，如缩放、裁剪和旋转等。例如，模型能够识别倒置的文字和聚焦识别模糊的图像。OpenAI 认为，这使得 AI 能够像人类一样“看”图并进行推理. 专家认为，这种能力是通过引入某种形式的视觉中间步骤来增强多模态模型的推理能力.
强大的工具调用能力：这被认为是最核心的亮点，使得 GPT-3 和 o4-mini 能够执行更可靠的工作. 与以往大模型可能产生的“幻觉”不同，工具调用允许模型在推理过程中调用外部工具，例如网页搜索、文件分析、Python 执行、深度推理和调取长期记忆等. OpenAI 强调其在推理模型中进行工具调用的能力，并声称在这方面进行了专门的训练. OpenAI 内部已拥有多种可供模型自动调用的工具.

此外，GPT-3 和 o4-mini 还具备记忆功能，能够根据与用户的历史交互进行个性化回应. 例如，可以根据用户的身份和过往讨论推荐相关内容并生成提纲.

OpenAI 的产品意图与基本路线

OpenAI 的发展方向是将各种功能（记忆、工具调用、推理、搜索等）聚合在一起，打造更强大、更易用的综合性 AI 能力. 其基本路线仍然是坚持通过强化学习和投入更多数据与算力来提升模型性能. OpenAI 的目标是使 AI 能够真正融入人们的日常生活和工作流程，成为高效的助手.

对标其他公司的类似模型

OpenAI 的最新进展自然会引发与其他 AI 公司的对比.

谷歌 Gemini：o3 在测试基准上对标 Gemini 2.5. 然而，有专家认为 Gemini 2.5 在常文本处理和推理能力结合方面可能更胜一筹. 值得关注的是，新款 Gemini 预计将在下周（4 月 22 日）发布, 这无疑将加剧市场竞争。谷歌也允许企业在本地部署 Gemini 模型.
其他竞争者：专家预测DeepSeek 等开源模型将在短期内赶上 OpenAI 的最新进展. 此外，DeepSeek R2、Anthropic 的 Claude 4 和马斯克的 Grok-3.5 也预计将在 4 月份陆续发布. 尽管如此，OpenAI 在综合实力上仍然被认为处于领先地位.

总结

本次 OpenAI 发布的新模型，通过引入强大的视觉推理能力和全面的工具调用支持，显著提升了 AI 的智能化水平和实际应用能力. 这标志着 AI 不仅能够理解文本，还能“看懂”图像，并能利用外部工具完成更复杂的任务. 虽然面临着激烈的市场竞争，但 OpenAI 持续的技术创新预示着 AI 将在未来发挥更加重要的作用.

Let's Make AGI Real