AI Agent 完全指南：历史演进、各家路线与未来方向（2026 最新版）

首页 · 行业观察 · AI Agent 完全指南：从 ReAct 到 Autonomous Curator，6 个演进阶段 × 各家路线全解

AI Agent 完全指南：从 ReAct 到 Autonomous Curator，6 个演进阶段 × 各家路线全解

AI Agent 的今生与来世。从 2022 年 ReAct 论文到 2026 年自我进化 Agent，完整梳理 6 个演进阶段；OpenAI、Anthropic、Google、微软、开源阵营各家路线一张全景地图；MCP、A2A、Function Call、Computer Use 技术架构一文讲清。

2026 年，关于 AI 的讨论已经从「哪个模型更聪明」彻底转向了「哪个 Agent 更能干」。

但很多人仍然把 AI Agent 和 ChatGPT 混为一谈。这篇文章想做一件事：从头到尾讲清楚 AI Agent 是什么、怎么来的、各家在做什么、以及它要去往哪里。

一、AI Agent 是什么

从问答机到行动者

大语言模型（LLM）的本质是一台极其复杂的「下一个词预测机器」。你问，它答。它活在对话框里，上下文窗口是它的全部世界。关闭窗口，一切归零。

AI Agent 做的事情不同：它不只是「回答问题」，而是代你完成任务。

一个最简洁的定义：AI Agent = LLM + 感知 + 规划 + 记忆 + 行动

能力	含义	类比
感知（Perception）	读取外部信息：文件、网页、截图、API 返回值	眼睛和耳朵
规划（Planning）	把大目标拆解为可执行的步骤序列	大脑思考
记忆（Memory）	跨对话、跨任务保留上下文和知识	笔记本
行动（Action）	调用工具、写代码、操作界面、发送消息	手和脚

这四样东西组合在一起，才能让 AI 从「帮你写一封邮件」进化为「帮你每天早上检查邮件、筛选重要内容、起草回复、等你审批后发送」。

和普通助手的本质差异

普通 AI 助手（ChatGPT 对话模式）的工作流程：你驱动，AI 辅助。每一步都需要你给指令。

AI Agent 的工作流程：你给目标，AI 驱动。它自己拆解任务、调用工具、处理错误、完成交付。

这不是渐进式改进，是范式转变。

二、进化六阶段：AI Agent 的完整历史

第一阶段：ReAct 的诞生（2022）

2022 年，普林斯顿和 Google Research 发表了一篇论文：《ReAct: Synergizing Reasoning and Acting in Language Models》（作者：姚顺雨等）。

这篇论文提出了一个改变后续一切的简单模式：

观察 → 思考 → 行动 → 观察 → 思考 → 行动 → ...

Thought（思考）：「用户问的是实时天气，我应该先调用搜索工具」
Action（行动）：调用天气 API
Observation（观察）：返回「北京 26℃ 晴」
Thought（思考）：「已经有答案了，可以回复」
Answer（回复）：「北京现在 26℃，晴天。」

这个循环听起来简单，但意义巨大：它第一次让 LLM 学会了「先想清楚再动手，动手之后再看结果」。在这之前，LLM 是纯粹的「直觉机器」，只会预测，不会规划。

ReAct 是 AI Agent 的底层引擎，从 2022 年到现在，所有 Agent 框架的核心都是这个循环的变体和扩展。

第二阶段：AutoGPT 的疯狂实验（2023 年初）

2023 年 3 月，一个叫 Toran Bruce Richards 的开发者把 ReAct 框架包上了一层「目标导向」的外壳，取名 AutoGPT，推到 GitHub。

两周内，AutoGPT 成为 GitHub 史上 Star 增速最快的项目之一。

它的核心想法：给 AI 一个长期目标，让它自己循环拆解、执行、验证，直到完成。

目标：「帮我建一个能自动发推文的账号」
→ 子任务1：注册 Twitter 开发者账号
→ 子任务2：研究 Twitter API 限制
→ 子任务3：写发帖代码
→ 子任务4：测试
→ ...

结果是：大部分时候，AutoGPT 在跑圈。

它陷入无限循环、输出无关内容、把子任务越拆越细永远无法收敛。同期还有 BabyAGI（更激进的版本），表现类似。

为什么失败？ 当时的 GPT-3.5 / GPT-4 早期版本，在 ReAct 循环里缺乏「判断当前结果是否足够好、是否应该停止」的能力。Agent 的瓶颈不在于智力，而在于控制系统——没有人在 loop 里做质量验证。

AutoGPT 的历史意义：它证明了 Agent 的概念是可行的，但同时告诉所有人，纯粹的「自主循环」在实践中不够可靠。这个教训推动了后续所有「可控 Agent」框架的诞生。

第三阶段：Function Call 让工具调用变成标准（2023 年中）

2023 年 6 月，OpenAI 为 GPT-3.5-turbo 和 GPT-4 引入了 Function Calling（函数调用）。

这是 AI Agent 发展史上最关键的一个基础设施决策。

在此之前，让 AI 调用工具需要复杂的 Prompt 工程：你要引导 AI 输出一段格式化文字，再用代码解析，再调用。不稳定，不可靠，不标准。

Function Call 让模型直接输出结构化的 JSON：

{
  "name": "get_weather",
  "arguments": {
    "city": "北京",
    "unit": "celsius"
  }
}

开发者接收这个 JSON，调用真实的天气 API，把结果塞回给模型。整个流程可预测、可调试、可生产。

Anthropic 随后跟进，Claude 3 系列也推出了 Tool Use。Google 在 Gemini 上也实现了类似能力。

Function Call 的意义：它把「AI 调用工具」从实验室技巧变成了工程标准。从这一刻起，任何有 API 的软件，原则上都可以被 AI Agent 操作。

同期爆发的 LangChain 生态正是吃了这个红利：一套链式编排框架 + 数百个预集成的工具包，让开发者能快速搭建 Agent 原型。2023 年底，LangChain 已经成为 AI 工程师的默认工具箱。

第四阶段：多 Agent 协作与 MCP 协议（2024）

单个 Agent 的上限，是一个全能但容易过载的人。多 Agent 的思路是：让不同 Agent 各自专精，像团队一样协作。

MetaGPT（清华团队）：把软件开发流程映射成 Agent 角色——产品经理 Agent 写需求文档，架构师 Agent 设计系统，工程师 Agent 写代码，测试 Agent 验证。角色分工让复杂任务的成功率大幅提升。

AutoGen（微软）：更灵活的双 Agent 架构——用户代理（UserProxy）和助手代理（Assistant）相互对话，支持人工介入任意环节。

CrewAI：易上手的多 Agent 框架，适合快速原型，但定制性弱。

同年（2024 年 11 月），Anthropic 开源了 MCP（Model Context Protocol，模型上下文协议）。

MCP 的定位：AI 工具调用的 USB 标准。

在 MCP 之前，每个框架都有自己的工具接入方式，LangChain 的工具、OpenAI 的 Function Call、各家都不兼容。MCP 提供了一套标准化的接口，任何支持 MCP 的 Agent 都能直接使用任何 MCP Server 提供的工具，无需重新适配。

2025 年，MCP 生态爆炸增长：GitHub、Slack、Jira、Notion、数据库……超过 100 个主流工具发布了官方 MCP Server，开源社区贡献的更多达数千个。

MCP 的出现意味着：Agent 的工具边界第一次开始消失。

第五阶段：Computer Use 与深度 Agent（2024 年末 - 2025）

2024 年 10 月，Anthropic 发布了 Computer Use for Claude 3.5 Sonnet。

这是一个质的跃迁。

之前的工具调用，都依赖 API：软件必须有 API，Agent 才能操作它。全球绝大多数遗留软件没有 API，无法被 Agent 触及。

Computer Use 让 Claude 直接「看截图、移鼠标、点按钮、键盘输入」。任何有界面的软件，不管有没有 API，Claude 都可以像人类一样操作。

这意味着：全球所有软件，原则上都成了 AI Agent 可以操作的工具。

同期，Claude Code 作为面向开发者的深度 Agent 上线——能读整个代码库、写代码、运行测试、修 bug、提 PR。不是「帮你写代码片段」，而是「作为一个真实的开发者参与你的项目」。

OpenAI 在 2025 年初推出了 Operator：一个能自主在浏览器里完成多步任务的 Agent——预订餐厅、填写表单、下订单，不需要用户介入每一步。

OpenAI Agents SDK 同年发布，是 Swarm 实验项目的生产版本，提供四个核心原语：Agent（智能体）、Handoffs（移交）、Guardrails（护栏）、Tracing（追踪）。

这一阶段的标志性概念是：Agent 开始有了「全局视野」——它不再是对话框里的助手，而是能够在你的电脑、你的服务器上持续运行、完成真实工作的数字员工。

第六阶段：自我进化 Agent（2025 - 2026）

2026 年的新主题：Agent 开始维护自己。

这是 Hermes Agent（NousResearch）的核心命题：一个 Agent 不仅执行任务，还在每次任务结束后自动反思、把有价值的经验写成「技能文件」，下次遇到相似问题时直接调用。

Hermes Agent v0.12.0 的 Autonomous Curator 把这个逻辑推进了一步：系统后台每 7 天自动运行一次，对技能库进行评分、整合、清理——不需要用户手动管理，Agent 自己保持整洁高效。

同期，A2A（Agent-to-Agent）协议由 Google 推出，由 Linux 基金会管理，150+ 合作组织加入。A2A 解决的问题是：不同框架的 Agent 如何互相发现、委托任务、协作完成。如果说 MCP 是 Agent 和工具之间的 USB，A2A 就是 Agent 和 Agent 之间的语言。

这一阶段的核心特征：Agent 从「执行者」变成了「系统组件」——一个具备自我维护能力的、可以和其他 Agent 协作的、持续学习的实体。

三、各家路线：一张全景地图

OpenAI：开发者生态优先

OpenAI 的 Agent 路线：从产品出发，往平台进化。

时间	里程碑
2023.06	Function Calling，奠定工具调用标准
2023.11	GPTs Store，把 Agent 带给普通用户
2025 Q1	Agents SDK（Swarm 继任），四原语框架
2025 Q1	Operator，浏览器自主 Agent 产品
2025 Q4	AgentKit，全生命周期开发套件
2026.04	Agents SDK 大更新：9 个沙箱提供商、Codex 工具集成

OpenAI 的策略是：先占领开发者思维，再建生态护城河。目前 OpenAI 拥有最大的开发者社区和最成熟的应用生态。缺点是 Assistants API（2026 年 8 月退役）代表的旧路线对开发者造成了负担，框架频繁变更。

核心产品：ChatGPT（消费级）、Operator（浏览器 Agent）、Agents SDK（开发者）

Anthropic：安全、能力、协议三管齐下

Anthropic 的特点是：每次发布都比同行慢半步，但质量更高，且更强调安全。

时间	里程碑
2024.05	Claude 3 Tool Use，高质量工具调用
2024.10	Computer Use，操作任意软件界面
2024.11	MCP 开源，建立工具连接标准
2025 下半年	Claude Code SDK → Claude Agent SDK（重命名）
2026.04	Claude Managed Agents 公测：沙箱、检查点、凭证隔离

Anthropic 最聪明的一步是开源 MCP：用一个开放标准建立生态，让工具集成商朝着 Anthropic 的规格做开发，形成网络效应。MCP 已经事实上成为业界标准。

核心定位：推理质量 + 安全边界 + 企业合规（法律、金融、医疗、政府的首选）

Google：企业基础设施 + 多模型战略

Google 在 Agent 赛道的独特优势：垂直整合——从模型（Gemini）到开发框架（ADK）到托管运行时（Vertex AI Agent Engine）到企业前台（Gemini Enterprise）。

时间	里程碑
2025.04	ADK（Agent Development Kit）发布
2025 Q3	Gemini 2.0 + Astra 多模态感知
2025.10	Gemini Enterprise，企业 Agent 舰队管理
2025	A2A 协议，Agent 间通信标准
2026	Vertex AI Agent Engine，托管 Agent 运行时

ADK 的设计思路与 OpenAI / Anthropic 不同：它以多 Agent 系统为第一公民，而非单个 Agent。它支持 Python / TypeScript / Go / Java，面向企业多语言团队。

A2A 协议意义深远：如果说 MCP 解决了「一个 Agent 怎么用工具」，A2A 解决了「一群 Agent 怎么协同工作」。

核心定位：企业级 Agent 基础设施，Google Workspace 深度整合

微软：AutoGen → 企业 AI 平台

微软通过对 OpenAI 的战略投资（估值 1570 亿美元的 30% 股份），直接在产品层面整合 GPT 能力。独立贡献在于：

AutoGen（2023）：双代理对话框架，专注代码生成和软件开发自动化
Magentic-One（2024）：五预设 Agent 的通用任务框架
Microsoft Agent Framework（2025）：AutoGen 的生产化继任，与 Azure AI Studio 深度整合
GitHub Copilot：目前落地最广的 AI 编程 Agent，月活开发者超过 1500 万

微软的策略：不打模型战争，打场景战争。把 AI Agent 能力嵌入 Office 365、GitHub、Teams、Azure，用已有企业客户基础快速落地。

开源阵营：从 LangChain 到自托管 Agent

框架	特点	当前地位
LangChain（2022）	链式编排，工具包最丰富	原型开发标配，生产中被 LangGraph 取代
LangGraph（2024）	有向图状态机，生产级可靠性	企业生产首选之一
CrewAI	角色驱动多 Agent，极易上手	快速原型 / 教学演示
AutoGPT（进化后）	目标导向自主 Agent，更可控版本	社区活跃但非主流生产框架
Hermes Agent	持久记忆 + 技能自进化 + 多消息平台 + 自托管	2026 年自托管首选，127K+ Stars
OpenClaw	模型无关 + 多渠道 + ClawHub 社区	开源社区生态最活跃之一

Hermes Agent 和 OpenClaw 的出现，标志着开源 Agent 进入了「生产可用」阶段：持久记忆、多平台接入、技能系统、数据本地化，都是面向真实长期使用场景设计的，不再只是实验框架。

四、技术架构：四个核心问题

记忆系统：Agent 的长期脊柱

Agent 记忆分四个层次：

In-context 记忆：当前对话窗口内。速度最快，但有上限（即使 1M Token 也会饱和），关闭即消失。
外部记忆（RAG）：向量数据库 + 检索。支持海量知识，但检索相关性是关键，质量不稳定。
文件系统记忆：结构化存储到 SQLite / JSON / Markdown 文件。Hermes Agent 的技能文件就是这类，可读可编辑可移植。
模型微调：把知识烧进权重。成本最高，最持久，但更新慢。

生产级 Agent 通常用 2 + 3 的组合：向量检索覆盖大量知识，文件系统存储个人偏好和可复用技能。

工具调用：从 Function Call 到 MCP

工具调用的演进路径：

早期 Prompt 工程（不稳定）
→ Function Call JSON（2023, 结构化但专有）
→ MCP Server（2024, 开放标准，一次实现到处用）
→ A2A（2025, Agent 之间的协作协议）

MCP 之后，工具生态的建设成本大幅下降：开发者实现一次 MCP Server，所有支持 MCP 的 Agent 都能使用。这是为什么 2025 年 MCP Server 数量从 0 增长到数千个的原因。

规划机制：从 CoT 到 CoA

Chain-of-Thought（CoT，思维链）：让模型输出中间推理步骤。2022 年的 Google 论文提出，o1 系列将其内化为训练目标。

Chain-of-Action（CoA，行动链）：2026 年的范式。Agent 不只思考，还主动探索——如果不确定某个工具怎么用，它会发起低风险的实验来推断接口行为，然后再执行主任务。

这是一种元认知能力：Agent 知道自己不知道，并主动去验证，而不是假设。

多 Agent 协调

单 Agent 的局限是认知负载上限：任务复杂到一定程度，单个上下文窗口装不下所有信息，可靠性断崖式下降。

多 Agent 的核心设计模式：

分层架构：Orchestrator Agent 负责规划和分配，Sub-Agent 负责执行具体子任务
专家 Agent 网络：每个 Agent 专精一个领域（代码、数据、通信、文件管理）
检查点 + 人工介入：在关键决策点暂停，等待人类审批，然后继续

2026 年 4 月，Anthropic（Claude Managed Agents）和 OpenAI（Agents SDK 大更新）在同一周内发布了几乎相同的多 Agent 基础设施架构。这是行业收敛的信号：什么是 Agent 的正确工程结构，头部厂商已经达成共识。

五、2026 年的现状：哪里还在打架

已经收敛的部分

工具调用标准：MCP 事实胜出，OpenAI、Google、微软都已支持
单 Agent 架构：控制面 + 计算面分离，带检查点的沙箱执行，已成标配
记忆系统：短期 in-context + 长期向量/文件，组合方案基本固定

仍在争夺的部分

Agent 间通信协议：A2A（Google/Linux 基金会）vs 各家私有实现
自主权边界：多少自主权是合理的？出了问题谁负责？
本地 vs 云端：Hermes / OpenClaw 等自托管路线 vs OpenAI / Anthropic 托管路线
Agent OS：下一个战场——Agent 是否会取代部分操作系统层的调度功能

六、未来方向

Agent OS：下一代操作系统的候选

2026 年 4 月，ColaOS 提出了更激进的概念。传统操作系统调度 CPU、内存、I/O；Agent OS 调度 AI Agent、工具调用、人机交互。

它不替代操作系统，而是在上层：你的所有数字任务，都经过一个 Agent 层路由和执行。

早期信号：苹果 Intelligence 深度整合 Gemini（Google 10 亿美元合作），Siri 从「语音助手」向「Agent 前台」转型。你和 AI 的交互界面，可能从「应用」变成「Agent」。

分布式主权 Agent

当前 Agent 有一个核心矛盾：你希望 Agent 越聪明、越能干，但这意味着更多数据流向云端，更多隐私风险。

未来方向是决策和执行解耦：

决策层：在本地运行（轻量模型 + 规则），处理隐私数据，做访问控制
执行层：调用云端大模型完成需要强推理的部分，但只传递脱敏后的任务描述

Hermes Agent 的「数据留在你的服务器」路线，是这个方向的早期形态。

自我进化闭环

目前的 Hermes Agent Curator 是规则驱动的技能管理：清理、整合、评分。

下一步是意图驱动的自我进化：Agent 根据主人的长期目标，主动识别自己的短板，设计实验，优化自身的技能库和行为模式。

这接近于强化学习——但在 Agent 层而非模型层，成本更低，周期更短，更贴近具体用户的场景。

**DSPy + 遗传算法提示进化（GEPA）**的组合，已经有早期实验：Agent 自动测试不同的提示写法，保留效果最好的，这个过程本身也是一个 ReAct 循环。

结语

从 2022 年的 ReAct 论文，到 2026 年的 Autonomous Curator，AI Agent 的每一次演进，本质上都是在让那个最基础的循环更完整、更可靠、更自动化：

观察世界 → 思考 → 采取行动 → 看结果 → 调整 → 再观察

这个循环，就是智能的本质——无论是人类、还是 AI。

区别只是：现在的 AI Agent，第一次开始有能力自己维护这个循环了。

参考资料：OpenAI Agents SDK · Anthropic MCP · Google ADK · Hermes Agent GitHub · ReAct 原论文