Let's Make AGI Real

I, Robot

2025-08-24

电脑中的精灵：AI浏览器如何改写网络规则（之三）

第二部分：深入引擎室：智能体架构

AI浏览器的“魔法”并非凭空而来，其背后是一套复杂而精密的架构。为了揭开这层神秘面纱，我们可以借助一个强大的类比：将AI浏览器想象成一辆为互联网设计的自动驾驶汽车。它不仅需要一个强大的引擎，还需要先进的传感器、智能的导航系统和精确的执行机构，才能在复杂混乱的网络道路上自主行驶。

数字大脑的四大支柱

一辆自动驾驶汽车的成功，取决于感知、决策、记忆和行动四个核心能力的协同工作。同样，一个AI智能体的架构也建立在四个基本支柱之上。

感知（Perception）：这是智能体的“眼睛”。它看待世界的方式与我们截然不同。它看到的不是像素和图像，而是结构化的数据。通过一个被称为“环境解析模块”（Environment Parsing Module）的组件，它将混乱的网页HTML代码解析成干净的、机器可读的JSON格式，其中只包含关键的交互元素，如按钮、输入框和链接。这就像自动驾驶汽车将复杂的街景转化为包含道路、障碍物和交通信号的数字地图。只有准确地“看见”了网页的结构，智能体才能知道下一步该做什么。
推理（Reasoning）：这是智能体的“大脑”或“导航系统”。在感知到环境后，它需要决定如何行动以达成目标。这个过程由大型语言模型（LLM）驱动，通过诸如“思维链”（Chain-of-Thought）等技术，将一个复杂的用户指令（如“帮我预订一张去东京的机票”）分解成一系列可执行的子任务（搜索航班、选择日期、填写乘客信息、点击确认）。这相当于导航系统规划出从起点到终点的详细路线。
记忆（Memory）：这是智能体的“行车日志”。为了完成多步骤任务，智能体必须能够记住之前的操作和上下文。记忆分为两种：短期记忆，即在当前任务中保持对话的连贯性；长期记忆，则用于存储用户的偏好和历史记录，从而提供更个性化的服务。没有记忆，每一次交互都将是全新的开始，智能体也无法完成任何有意义的复杂任务。
行动（Action）：这是智能体的“方向盘和油门”。在做出决策后，智能体需要与网页进行实际的交互——点击按钮、填写表单、调用API。这是将虚拟的计划转化为现实世界（即数字世界）改变的关键一步。这个能力，在技术上被称为“工具使用”（Tool Use）。

引擎室：大语言模型、工具使用与ReAct框架

大型语言模型（LLM）是驱动智能体推理能力的强大引擎。然而，LLM本身只是一个复杂的文本预测器，它能“说”但不能“做”。要让它具备行动能力，就需要一座关键的桥梁——“工具使用”。通过“函数调用”（Function Calling）机制，LLM可以访问并使用外部工具，这些工具可以是计算器、搜索引擎，或者最重要的——浏览器自身提供的一系列操作函数，比如：

click("submitbutton") 或 fillform("username", "JohnDoe")。

为了让这个“思考-行动”的过程有序进行，研究人员开发了像ReAct（Reason + Act）这样的框架。ReAct的逻辑非常简单但极其强大，它建立了一个循环：LLM首先进行

推理（Reason），思考下一步该做什么；然后决定一个行动（Act），即选择并调用一个工具；执行行动后，它会从环境中获得一个观察（Observation），比如网页加载成功或出现错误；最后，它将这个观察结果作为新的信息，开始下一轮的“推理-行动”循环，直到最终目标达成。这个框架为原本可能混乱无序的LLM输出提供了一个清晰的结构，确保智能体能够有条不紊地向目标前进。

上一篇：新角斗场：AI浏览器角斗士的战场指南

下一篇：半人马的困境：重新定义我们与网络的关系

AI应用, 播客

Posted by:

keven

A wonderer in the forest of knowledge.

电脑中的精灵：AI浏览器如何改写网络规则（之三）

第二部分：深入引擎室：智能体架构

数字大脑的四大支柱

引擎室：大语言模型、工具使用与ReAct框架

分享到：

留下评论 取消回复

留下评论取消回复