当ChatGPT学会了点鼠标——OpenAI Operator：从对话框到操作台的惊险一跃

一个老问题的新答案

2025年1月23日，OpenAI发布了一篇简短的博客文章，标题平平无奇：《Introducing Operator》。

但这篇文章宣布的东西，一点都不平淡。

它说：我们给了ChatGPT一个浏览器，让它自己上网干活了。

如果说此前的ChatGPT是一个坐在房间里的天才顾问——你问它任何问题，它都能给出精彩的回答，但它永远走不出那个房间。那么Operator，就是给这个天才顾问配了一双手、一双眼睛和一台电脑。

它现在可以看到屏幕上的按钮、菜单和输入框，然后像人一样去点击、滚动、输入。它可以帮你在DoorDash上点外卖，在OpenTable上订餐厅，在StubHub上买演唱会门票，在Instacart上购物……

这听起来像是一个高级版的”自动化脚本”。但它和传统的自动化有一个根本性的区别：它不需要API。

传统的软件自动化（比如Zapier或者各种RPA工具）需要每个网站提供API接口才能连接。但世界上绝大多数网站根本没有API——或者有API但极其有限。Operator绕过了这个瓶颈：它直接”看”网页、”操作”网页，就像一个人坐在电脑前一样。

这意味着理论上，任何一个人能在浏览器里完成的操作，Operator都可以代劳。

CUA：教AI”看”和”动”

Operator背后的技术引擎叫CUA——Computer-Using Agent（计算机使用智能体）。

这个名字朴素得近乎无聊，但它描述的能力相当惊人。CUA结合了两种核心能力：

视觉理解：基于GPT-4o的多模态视觉能力，CUA能够”看懂”屏幕上的图形界面。不是通过读取HTML代码（那是传统爬虫的做法），而是像人类一样，通过截屏来理解屏幕上显示了什么——哪里有按钮，哪里有文本框，哪里有下拉菜单。

行为推理：通过强化学习训练，CUA学会了在图形界面上做出正确的操作序列。它不只是能”看到”按钮，还知道应该在什么时候点哪个按钮，在什么情况下需要滚动页面，在什么地方需要输入文本。

两者结合，就构成了一个能”看屏幕、懂界面、会操作”的AI。

关键的突破在于自我纠错。CUA不是一个死板地执行预设步骤的机器人。当它点错了按钮，或者页面布局发生了意料之外的变化，它会利用推理能力重新规划路径——就像一个遇到堵车会自动换路的导航系统。如果它真的被卡住了，无法继续，它会把控制权交还给用户，说：”这里我搞不定了，你来接手。”

这种”会犯错但也会自我修正”的特质，让Operator从一个”自动化工具”升级为一个”智能协作者”。

从独立产品到ChatGPT的灵魂升级

Operator最初是作为一个独立产品发布的——你需要访问operator.chatgpt.com，在一个专门的界面里使用它。

但2025年7月，OpenAI做了一个重大决定：把Operator的能力直接融入ChatGPT主产品，命名为ChatGPT Agent模式。

这个决定的意义在于——它不是推出一个”新产品”，而是给已有的ChatGPT做了一次灵魂升级。

在此之前，ChatGPT里已经有了两个强大的”模式”：Deep Research（深度研究，擅长分析、总结、写报告）和Operator（擅长操控浏览器执行任务）。但它们各有短板——Deep Research不能与网页互动，Operator不擅长深度分析。

Agent模式的推出，把两者合并了。现在的ChatGPT Agent既能像Deep Research一样深入分析信息、撰写详细报告，又能像Operator一样打开网页、点击按钮、填写表单。

用户不需要在不同模式之间切换了。他们只需要在ChatGPT的对话框里说一句话——比如”帮我研究一下最近三个月纽约飞东京的机票价格趋势，然后在Google Flights上找到下周五最便宜的那班并帮我预订”——Agent模式会自动判断哪些部分需要分析能力，哪些部分需要浏览器操控能力，然后无缝衔接。

这是一个”对话AI”变成”行动AI”的标志性时刻。

Sam Altman的赌注

为什么OpenAI要做这个？

在ChatGPT发布两年之后，Sam Altman面临一个微妙的困境：ChatGPT的增长在放缓。免费用户很多，但付费转化率不够高。人们觉得ChatGPT”很酷”，但还没有到”离不开”的程度。

原因很简单：一个只能”说话”的AI，再聪明也有天花板。你问它问题，它回答了，然后呢？你还是得自己打开浏览器去订机票、去填表格、去查信息。ChatGPT帮你省了”思考”的时间，但没帮你省”执行”的时间。

Operator/Agent模式要解决的就是这个问题。它的目标是让ChatGPT从”我每天用几次的聊天工具”变成”我每天用几个小时的工作伙伴”。

如果成功了，这意味着ChatGPT的用户使用时长和付费意愿都将大幅提升。这是一个价值数百亿美元的赌注。

安全的紧箍咒

但让AI操控电脑，这件事本身就让人后背发凉。

想象一下：一个能自主浏览网页、点击按钮、输入信息的AI，如果被恶意利用会怎样？它可能在你不知情的情况下点击恶意链接、填写钓鱼表单、甚至执行金融交易。

OpenAI在Operator的安全设计上下了重功夫，构建了三层防护：

模型层：CUA自身经过专门的安全对齐训练。它被训练在遇到涉及个人信息（密码、信用卡号等）的操作时主动暂停，把控制权交还给用户。它绝不会在用户没有确认的情况下执行付款或提交敏感信息。

系统层：Operator运行在一个隔离的浏览器环境中，与用户的本地浏览器完全分离。它无法访问用户的Cookie、保存的密码或浏览历史。每次会话结束后，浏览器环境会被清空。

监控层：OpenAI部署了实时监控系统，检测异常行为模式。如果Operator做出了偏离用户指令的操作，系统会自动中断并报告。

这套安全体系并不完美——在AI安全领域，没有什么是完美的。但它至少建立了一个”不信任默认”的框架：Operator被设计为在任何不确定的情况下停下来问你，而不是自作主张地继续。

“我来”vs”你来”：一场哲学辩论

Operator引发了一场有趣的哲学辩论：我们真的想要AI替我们做所有事情吗？

支持者说：当然。谁愿意花时间在订机票、买杂货、填表格这些机械性的事情上？把这些交给AI，人类可以专注于真正有创造力的工作。

反对者说：且慢。当我们把越来越多的”执行权”交给AI，我们也在失去对自己数字生活的直接掌控。今天是帮你订外卖，明天是帮你回邮件，后天是帮你做投资决策——边界在哪里？

还有一个更实际的问题：Operator目前只支持Pro、Plus和Team用户，也就是付费用户。这意味着”AI替你干活”正在成为一种付费特权——有钱的人可以把苦差事外包给AI，没钱的人还得自己手动操作。AI工具是在缩小效率差距，还是在扩大阶层差距？

这些问题没有简单的答案。但它们值得被认真对待。

一个时代的分水岭

不管你怎么看待这些争议，有一件事是确定的：Operator/ChatGPT Agent的出现，标志着AI应用从”对话时代”向”行动时代”的转折。

在对话时代，AI的核心交互模式是：你问→它答。

在行动时代，AI的核心交互模式变成了：你说→它做。

这两个字的区别——”答”和”做”——之间隔着一条鸿沟。跨过这条鸿沟需要视觉理解、行为规划、自我纠错、安全保障等一系列能力的突破。Operator未必是跨过这条鸿沟的最优雅的方案，但它是第一个由顶级AI公司推出的大规模商业化尝试。

当一个拥有数亿用户的产品获得了”自己动手”的能力——世界不可能还是原来的样子。

就像当年iPhone把”打电话”和”上网”合二为一一样，ChatGPT Agent把”聊天”和”操作”合二为一。回头看，这可能是2025年最重要的产品发布之一——不是因为它有多完美，而是因为它开了一扇不会再关上的门。

OpenAI Operator / ChatGPT Agent 快速档案

发布时间：2025年1月23日（Operator）；2025年7月（融入ChatGPT Agent模式）
开发方：OpenAI
核心技术：CUA（Computer-Using Agent）——GPT-4o视觉能力+强化学习行为推理
核心能力：自主浏览网页、理解GUI界面、点击/滚动/输入操作、自我纠错、多步骤任务执行
用户范围：ChatGPT Pro / Plus / Team 用户
安全机制：隔离浏览器环境、敏感信息暂停确认、实时异常监控
与Deep Research的关系：Agent模式融合了Operator的浏览器操控能力和Deep Research的深度分析能力
API计划：CUA技术将通过API向开发者开放，支持构建自定义智能体
产品定位：从”AI聊天助手”向”AI行动助手”的范式升级

下一篇：《周鸿祎的蜂群战术——纳米AI与多智能体协作的新范式》

Let's Make AGI Real

留下评论取消回复