OpenAI终于下场,发布能够自主执行复杂任务的通用智能体

昨天OpenAI推出了一款新品,不是GPT-5,不是AGI,而是名为ChatGPT Agent的通用智能体!据说将替代其半年前推出的“电脑操作员Operator”智能体,它能整合多种工具和技术,为用户提供一个利用自身计算能力、执行真实世界复杂任务的统一的AI代理系统。它被定位为一个强大的“工作者”和“生产力杀手”。它能够无缝地从“思考”过渡到“行动”,并使用多种工具来处理从头到尾的复杂任务。这么看来,是不是刚搬去新加坡的Manus是不是要凉凉了?

核心功能与技术特点

ChatGPT Agent是OpenAI现有技术的巧妙结合。它是一个单一的智能体系统,运行在一个独立的沙盒环境中,拥有其专属的“计算机”或虚拟机(VM)。这台虚拟计算机预装了多种工具,智能体可以根据任务需求自主选择使用。

其核心功能与整合的技术包括:

  • 整合Operator与Deep Research的经验:它巧妙地结合了OpenAI以往两项重要技术的经验——Operator与网站进行交互的能力,以及Deep Research在信息合成和利用ChatGPT智能方面进行对话的能力。这意味着用户可以在一个统一的ChatGPT平台内使用这些强大的代理功能。OpenAI意识到这两种方法实际上是深度互补的

预装多功能工具:

  • 文本浏览器(Text browser):智能体能够搜索或总结不同的网页内容,类似于之前的Deep Research工具,用于高效快速地阅读大量网页和进行搜索。
  • 交互式/可视化浏览器(Interactive/Visual browser):允许智能体与网页进行交互,例如进行鼠标点击、拖拽、打开UI组件、填写表格和预订等操作。它能够视觉化地读取PDF和不同网站,并提供流畅的用户界面。
  • 终端(Terminal):用于执行命令行操作,能够运行代码,生成和分析文件,并执行数学运算或进行更确定的操作。
  • 文件系统与代码执行:能够管理和操作文件,编写和运行代码,创建新的文件和文件系统。
  • API访问:可以调用API,例如OpenAI的图像生成API,也可以访问公共API和用户私有数据源的API(如Google Drive、Google Calendar、GitHub和SharePoint),但前提是用户明确连接它们。
  • 图像生成工具/API:用于为幻灯片或其他任务创建精美的视觉内容。
  • 截图功能:智能体可以截取所查看内容的屏幕截图,并将其作为报告或响应的一部分发送给用户。
  • 幻灯片和电子表格生成:智能体具有直接生成电子表格和PowerPoint幻灯片的能力,能够进行所有研究并将结果输出为带有视觉效果的文件。
  • 强化学习训练:该模型通过强化学习在工具操作方面进行了训练,使其能够以非常深入的方式理解如何使用这些工具,从而极大地推动了LLM(大型语言模型)的智能体能力。OpenAI创建了需要使用所有这些工具的“硬任务”,指导模型学会了如何以及何时选择使用哪种工具。
  • 连接器(Connectors):支持将Agent连接到用户的个人应用程序和数据,例如Gmail、Google日历、Dropbox等,从而使其能够了解用户的历史和偏好,做出更好的决策和行动。

用户交互与协作体验

ChatGPT Agent被设计为高度协作且支持多轮对话的。OpenAI在设计上强调了用户控制和监督,采取了非常谨慎的方法来处理潜在的安全问题。这种“人类在环”(Human in the loop)的设计理念旨在确保用户始终拥有对AI行为的控制权。

其用户交互特点包括:

  • 中断与引导:用户可以随时中断智能体的运行,澄清指令,引导其达到更期望的结果,甚至完全改变任务,而Agent会无缝地从中断处继续,不会丢失之前的进度。这种灵活度远超之前的模型。
  • 主动寻求细节与确认:智能体可能会在需要时主动向用户寻求额外细节,以确保任务符合用户目标。在任务关键步骤(例如发送电子邮件之前)会请求用户确认草稿内容,以避免错误。
  • 暂停与总结:如果任务耗时过长或遇到阻碍,用户可以暂停Agent,要求其提供进度摘要,或完全停止并接收部分结果。
  • 用户接管(Takeover mode):如果用户发现智能体出错或希望亲自处理敏感信息(如信用卡信息),可以直接接管浏览器并在智能体环境中自行更正。
  • 任务完成通知:当Agent完成任务后,会通过手机或其他设备向用户发送通知。
  • 这种交互方式被描述为更像是与一个真正的人类合作,而不是与一个僵硬的机器人。

性能基准与应用潜力

在多个基准测试中,ChatGPT Agent展现了其强大的实用能力和显著的性能提升:

  • 人类终极考试(Humanity’s Last Exam):在配备所有可用工具的情况下,ChatGPT Agent的得分接近42%,高于Deep Research的26.6% 和Grok 4的38.6%,使其成为该类别的新领导者。
  • 电子表格基准(Spreadsheet Bench):在处理真实电子表格文件(XLSX)的任务中,智能体取得了45%或45.5% 或45.7% 的得分,几乎是O3模型(18.4%)的两倍,尽管与人类71.3%的平均得分仍有差距。
  • 投资银行建模任务(Investment Banking Modeling Task):在金融建模这类高价值任务中,该智能体平均得分达到41%,若在64次尝试中选择最佳结果,可高达71%。其能力相比几个月前还是最先进的O3模型有了大幅提升。
  • 浏览对比(Browse Comp):从Deep Research的55.5%大幅提升至68.9%。
  • Web Arena:智能体的浏览器使用能力正在接近人类水平(人类得分为78.2%)。
  • 前沿数学(Frontier Maths / Front TMS):在该基准测试中取得了显著提升,达到27%的新SOTA水平。
  • DSBench (数据科学任务):在数据分析和建模等现实数据科学任务中,ChatGPT Agent比O3模型性能提升了2%到7-8%不等,并且表现出色。

这些基准测试表明,ChatGPT Agent不仅能够处理复杂的计算任务,还能在真实世界的场景中进行数据分析、信息合成和报告生成,展现了其作为“AI打工者”的巨大潜力。

实际应用案例包括:

  • 自动化重复性任务:例如自动化每周的停车请求,将截图或仪表盘转换为可编辑的演示文稿,重新安排会议,规划和预订外出活动,用新的财务数据更新电子表格(甚至可以直接从电子邮件中获取数据)。
  • 个人生活助理:可用于规划和预订旅行行程,设计和预订整个晚宴派对,或查找专家并安排预约,甚至帮助婚礼筹备。
  • 复杂数据分析:能够自行搜索并提取旧金山过去五年年度预算的收支信息,将其编译成格式良好的电子表格,准确率高达98%。
  • 商业分析:通过分析大量支持邮件和论坛帖子,为公司识别核心客户和最大的缺失功能,该任务仅需约20分钟,而人工处理可能需要一整天。
  • 潜在高级用例:讨论了制作视频游戏(包括编写代码、下载资源)、构建二手预算PC、玩简单游戏和进行高级事实核查的能力。

可用性与推出细节

ChatGPT Agent主要面向Pro Plus和Team订阅用户推出

  • Pro用户(每月200美元订阅)预计在发布当天即可获得访问权限,每月可发送约400条查询/消息。
  • Plus用户(每月20美元订阅)每月可发送40条查询/消息,预计在几天内获得访问权限。
  • 企业和教育用户预计将在本月底或未来几周内获得访问权限。
  • 目前,欧洲经济区和瑞士的用户暂时无法访问此功能,原因可能与当地法律有关。

值得注意的是,OpenAI的Operator功能将在未来几周内逐步停用,但Deep Research将继续作为一项独立功能存在

风险与安全考量

尽管ChatGPT Agent功能强大,但也伴随着新的风险。视频强调了在使用信用卡信息或智能体可能导航到的潜在网站时要保持警惕。这种新的浏览方式要求用户更加注意,因为智能体可能会访问网站并输入用户不希望其输入的信息。

OpenAI已采取多项措施来降低这些风险,并表示他们一直非常关注安全问题:

  • 训练模型忽略可疑网站上的可疑指令
  • 设立多层监控系统,实时监测智能体的行为,并在发现可疑情况时中止其操作。
  • 能够实时更新防御措施,以应对新出现的攻击。然而,OpenAI也强调,这仍是一款尖端产品,存在新的风险界面,无法阻止所有攻击。因此,用户意识至关重要。OpenAI鼓励用户主动思考如何分享信息,避免分享高度敏感的信息。对于敏感信息输入,建议用户使用“接管模式”亲自输入,而不是交给智能体处理。

简要评价

总而言之,ChatGPT Agent是OpenAI的一次重要发布,尽管它并非AGI或GPT-5,但其在企业自动化和提升个人生产力方面具有显著潜力。它被认为是OpenAI训练过的最强大的模型之一,具备前所未有的推理、浏览和处理真实世界任务的能力。其能够自动化大量重复性任务,使其被视为一个“生产力杀手”,能够显著提升效率并可能取代许多枯燥、平凡的工作。

ChatGPT Agent的推出引发了对未来就业的深思。如果公司开始采纳并信任该工具,很多人可能会因此失业。这再次印证了“AI正在冲击我们的工作”这一观点,并建议人们思考职业选择,甚至学习如何更好地利用这些工具,而非被其取代。OpenAI表示,这仍是早期阶段,他们将迅速改进产品,并期待看到它将带来何种发展。这种范式正在从简单的“提示”向更深层次的“委托”转变,使AI更像是能够处理广泛分析和计算机任务的“实习生”。



留下评论