当ChatGPT学会了点鼠标——OpenAI Operator:从对话框到操作台的惊险一跃

 

一个老问题的新答案

2025年1月23日,OpenAI发布了一篇简短的博客文章,标题平平无奇:《Introducing Operator》。

但这篇文章宣布的东西,一点都不平淡。

它说:我们给了ChatGPT一个浏览器,让它自己上网干活了。

如果说此前的ChatGPT是一个坐在房间里的天才顾问——你问它任何问题,它都能给出精彩的回答,但它永远走不出那个房间。那么Operator,就是给这个天才顾问配了一双手、一双眼睛和一台电脑。

它现在可以看到屏幕上的按钮、菜单和输入框,然后像人一样去点击、滚动、输入。它可以帮你在DoorDash上点外卖,在OpenTable上订餐厅,在StubHub上买演唱会门票,在Instacart上购物……

这听起来像是一个高级版的”自动化脚本”。但它和传统的自动化有一个根本性的区别:它不需要API。

传统的软件自动化(比如Zapier或者各种RPA工具)需要每个网站提供API接口才能连接。但世界上绝大多数网站根本没有API——或者有API但极其有限。Operator绕过了这个瓶颈:它直接”看”网页、”操作”网页,就像一个人坐在电脑前一样。

这意味着理论上,任何一个人能在浏览器里完成的操作,Operator都可以代劳。

CUA:教AI”看”和”动”

Operator背后的技术引擎叫CUA——Computer-Using Agent(计算机使用智能体)。

这个名字朴素得近乎无聊,但它描述的能力相当惊人。CUA结合了两种核心能力:

视觉理解:基于GPT-4o的多模态视觉能力,CUA能够”看懂”屏幕上的图形界面。不是通过读取HTML代码(那是传统爬虫的做法),而是像人类一样,通过截屏来理解屏幕上显示了什么——哪里有按钮,哪里有文本框,哪里有下拉菜单。

行为推理:通过强化学习训练,CUA学会了在图形界面上做出正确的操作序列。它不只是能”看到”按钮,还知道应该在什么时候点哪个按钮,在什么情况下需要滚动页面,在什么地方需要输入文本。

两者结合,就构成了一个能”看屏幕、懂界面、会操作”的AI。

关键的突破在于自我纠错。CUA不是一个死板地执行预设步骤的机器人。当它点错了按钮,或者页面布局发生了意料之外的变化,它会利用推理能力重新规划路径——就像一个遇到堵车会自动换路的导航系统。如果它真的被卡住了,无法继续,它会把控制权交还给用户,说:”这里我搞不定了,你来接手。”

这种”会犯错但也会自我修正”的特质,让Operator从一个”自动化工具”升级为一个”智能协作者”。

从独立产品到ChatGPT的灵魂升级

Operator最初是作为一个独立产品发布的——你需要访问operator.chatgpt.com,在一个专门的界面里使用它。

但2025年7月,OpenAI做了一个重大决定:把Operator的能力直接融入ChatGPT主产品,命名为ChatGPT Agent模式。

这个决定的意义在于——它不是推出一个”新产品”,而是给已有的ChatGPT做了一次灵魂升级。

在此之前,ChatGPT里已经有了两个强大的”模式”:Deep Research(深度研究,擅长分析、总结、写报告)和Operator(擅长操控浏览器执行任务)。但它们各有短板——Deep Research不能与网页互动,Operator不擅长深度分析。

Agent模式的推出,把两者合并了。现在的ChatGPT Agent既能像Deep Research一样深入分析信息、撰写详细报告,又能像Operator一样打开网页、点击按钮、填写表单。

用户不需要在不同模式之间切换了。他们只需要在ChatGPT的对话框里说一句话——比如”帮我研究一下最近三个月纽约飞东京的机票价格趋势,然后在Google Flights上找到下周五最便宜的那班并帮我预订”——Agent模式会自动判断哪些部分需要分析能力,哪些部分需要浏览器操控能力,然后无缝衔接。

这是一个”对话AI”变成”行动AI”的标志性时刻。

Sam Altman的赌注

为什么OpenAI要做这个?

在ChatGPT发布两年之后,Sam Altman面临一个微妙的困境:ChatGPT的增长在放缓。免费用户很多,但付费转化率不够高。人们觉得ChatGPT”很酷”,但还没有到”离不开”的程度。

原因很简单:一个只能”说话”的AI,再聪明也有天花板。你问它问题,它回答了,然后呢?你还是得自己打开浏览器去订机票、去填表格、去查信息。ChatGPT帮你省了”思考”的时间,但没帮你省”执行”的时间。

Operator/Agent模式要解决的就是这个问题。它的目标是让ChatGPT从”我每天用几次的聊天工具”变成”我每天用几个小时的工作伙伴”。

如果成功了,这意味着ChatGPT的用户使用时长和付费意愿都将大幅提升。这是一个价值数百亿美元的赌注。

安全的紧箍咒

但让AI操控电脑,这件事本身就让人后背发凉。

想象一下:一个能自主浏览网页、点击按钮、输入信息的AI,如果被恶意利用会怎样?它可能在你不知情的情况下点击恶意链接、填写钓鱼表单、甚至执行金融交易。

OpenAI在Operator的安全设计上下了重功夫,构建了三层防护:

模型层:CUA自身经过专门的安全对齐训练。它被训练在遇到涉及个人信息(密码、信用卡号等)的操作时主动暂停,把控制权交还给用户。它绝不会在用户没有确认的情况下执行付款或提交敏感信息。

系统层:Operator运行在一个隔离的浏览器环境中,与用户的本地浏览器完全分离。它无法访问用户的Cookie、保存的密码或浏览历史。每次会话结束后,浏览器环境会被清空。

监控层:OpenAI部署了实时监控系统,检测异常行为模式。如果Operator做出了偏离用户指令的操作,系统会自动中断并报告。

这套安全体系并不完美——在AI安全领域,没有什么是完美的。但它至少建立了一个”不信任默认”的框架:Operator被设计为在任何不确定的情况下停下来问你,而不是自作主张地继续。

“我来”vs”你来”:一场哲学辩论

Operator引发了一场有趣的哲学辩论:我们真的想要AI替我们做所有事情吗?

支持者说:当然。谁愿意花时间在订机票、买杂货、填表格这些机械性的事情上?把这些交给AI,人类可以专注于真正有创造力的工作。

反对者说:且慢。当我们把越来越多的”执行权”交给AI,我们也在失去对自己数字生活的直接掌控。今天是帮你订外卖,明天是帮你回邮件,后天是帮你做投资决策——边界在哪里?

还有一个更实际的问题:Operator目前只支持Pro、Plus和Team用户,也就是付费用户。这意味着”AI替你干活”正在成为一种付费特权——有钱的人可以把苦差事外包给AI,没钱的人还得自己手动操作。AI工具是在缩小效率差距,还是在扩大阶层差距?

这些问题没有简单的答案。但它们值得被认真对待。

一个时代的分水岭

不管你怎么看待这些争议,有一件事是确定的:Operator/ChatGPT Agent的出现,标志着AI应用从”对话时代”向”行动时代”的转折。

在对话时代,AI的核心交互模式是:你问→它答。

在行动时代,AI的核心交互模式变成了:你说→它做。

这两个字的区别——”答”和”做”——之间隔着一条鸿沟。跨过这条鸿沟需要视觉理解、行为规划、自我纠错、安全保障等一系列能力的突破。Operator未必是跨过这条鸿沟的最优雅的方案,但它是第一个由顶级AI公司推出的大规模商业化尝试。

当一个拥有数亿用户的产品获得了”自己动手”的能力——世界不可能还是原来的样子。

就像当年iPhone把”打电话”和”上网”合二为一一样,ChatGPT Agent把”聊天”和”操作”合二为一。回头看,这可能是2025年最重要的产品发布之一——不是因为它有多完美,而是因为它开了一扇不会再关上的门。

OpenAI Operator / ChatGPT Agent 快速档案

  • 发布时间:2025年1月23日(Operator);2025年7月(融入ChatGPT Agent模式)
  • 开发方:OpenAI
  • 核心技术:CUA(Computer-Using Agent)——GPT-4o视觉能力+强化学习行为推理
  • 核心能力:自主浏览网页、理解GUI界面、点击/滚动/输入操作、自我纠错、多步骤任务执行
  • 用户范围:ChatGPT Pro / Plus / Team 用户
  • 安全机制:隔离浏览器环境、敏感信息暂停确认、实时异常监控
  • 与Deep Research的关系:Agent模式融合了Operator的浏览器操控能力和Deep Research的深度分析能力
  • API计划:CUA技术将通过API向开发者开放,支持构建自定义智能体
  • 产品定位:从”AI聊天助手”向”AI行动助手”的范式升级

下一篇:《周鸿祎的蜂群战术——纳米AI与多智能体协作的新范式》



留下评论