2026 年,关于 AI 的讨论已经从「哪个模型更聪明」彻底转向了「哪个 Agent 更能干」。

但很多人仍然把 AI Agent 和 ChatGPT 混为一谈。这篇文章想做一件事:从头到尾讲清楚 AI Agent 是什么、怎么来的、各家在做什么、以及它要去往哪里。


一、AI Agent 是什么

从问答机到行动者

大语言模型(LLM)的本质是一台极其复杂的「下一个词预测机器」。你问,它答。它活在对话框里,上下文窗口是它的全部世界。关闭窗口,一切归零。

AI Agent 做的事情不同:它不只是「回答问题」,而是代你完成任务

一个最简洁的定义:AI Agent = LLM + 感知 + 规划 + 记忆 + 行动

能力含义类比
感知(Perception)读取外部信息:文件、网页、截图、API 返回值眼睛和耳朵
规划(Planning)把大目标拆解为可执行的步骤序列大脑思考
记忆(Memory)跨对话、跨任务保留上下文和知识笔记本
行动(Action)调用工具、写代码、操作界面、发送消息手和脚

这四样东西组合在一起,才能让 AI 从「帮你写一封邮件」进化为「帮你每天早上检查邮件、筛选重要内容、起草回复、等你审批后发送」。

和普通助手的本质差异

普通 AI 助手(ChatGPT 对话模式)的工作流程:你驱动,AI 辅助。每一步都需要你给指令。

AI Agent 的工作流程:你给目标,AI 驱动。它自己拆解任务、调用工具、处理错误、完成交付。

这不是渐进式改进,是范式转变。


二、进化六阶段:AI Agent 的完整历史

第一阶段:ReAct 的诞生(2022)

2022 年,普林斯顿和 Google Research 发表了一篇论文:《ReAct: Synergizing Reasoning and Acting in Language Models》(作者:姚顺雨等)。

这篇论文提出了一个改变后续一切的简单模式:

观察 → 思考 → 行动 → 观察 → 思考 → 行动 → ...

Thought(思考):「用户问的是实时天气,我应该先调用搜索工具」
Action(行动):调用天气 API
Observation(观察):返回「北京 26℃ 晴」
Thought(思考):「已经有答案了,可以回复」
Answer(回复):「北京现在 26℃,晴天。」

这个循环听起来简单,但意义巨大:它第一次让 LLM 学会了「先想清楚再动手,动手之后再看结果」。在这之前,LLM 是纯粹的「直觉机器」,只会预测,不会规划。

ReAct 是 AI Agent 的底层引擎,从 2022 年到现在,所有 Agent 框架的核心都是这个循环的变体和扩展。


第二阶段:AutoGPT 的疯狂实验(2023 年初)

2023 年 3 月,一个叫 Toran Bruce Richards 的开发者把 ReAct 框架包上了一层「目标导向」的外壳,取名 AutoGPT,推到 GitHub。

两周内,AutoGPT 成为 GitHub 史上 Star 增速最快的项目之一。

它的核心想法:给 AI 一个长期目标,让它自己循环拆解、执行、验证,直到完成

目标:「帮我建一个能自动发推文的账号」
→ 子任务1:注册 Twitter 开发者账号
→ 子任务2:研究 Twitter API 限制
→ 子任务3:写发帖代码
→ 子任务4:测试
→ ...

结果是:大部分时候,AutoGPT 在跑圈

它陷入无限循环、输出无关内容、把子任务越拆越细永远无法收敛。同期还有 BabyAGI(更激进的版本),表现类似。

为什么失败? 当时的 GPT-3.5 / GPT-4 早期版本,在 ReAct 循环里缺乏「判断当前结果是否足够好、是否应该停止」的能力。Agent 的瓶颈不在于智力,而在于控制系统——没有人在 loop 里做质量验证。

AutoGPT 的历史意义:它证明了 Agent 的概念是可行的,但同时告诉所有人,纯粹的「自主循环」在实践中不够可靠。这个教训推动了后续所有「可控 Agent」框架的诞生。


第三阶段:Function Call 让工具调用变成标准(2023 年中)

2023 年 6 月,OpenAI 为 GPT-3.5-turbo 和 GPT-4 引入了 Function Calling(函数调用)。

这是 AI Agent 发展史上最关键的一个基础设施决策。

在此之前,让 AI 调用工具需要复杂的 Prompt 工程:你要引导 AI 输出一段格式化文字,再用代码解析,再调用。不稳定,不可靠,不标准。

Function Call 让模型直接输出结构化的 JSON:

{
  "name": "get_weather",
  "arguments": {
    "city": "北京",
    "unit": "celsius"
  }
}

开发者接收这个 JSON,调用真实的天气 API,把结果塞回给模型。整个流程可预测、可调试、可生产

Anthropic 随后跟进,Claude 3 系列也推出了 Tool Use。Google 在 Gemini 上也实现了类似能力。

Function Call 的意义:它把「AI 调用工具」从实验室技巧变成了工程标准。从这一刻起,任何有 API 的软件,原则上都可以被 AI Agent 操作。

同期爆发的 LangChain 生态正是吃了这个红利:一套链式编排框架 + 数百个预集成的工具包,让开发者能快速搭建 Agent 原型。2023 年底,LangChain 已经成为 AI 工程师的默认工具箱。


第四阶段:多 Agent 协作与 MCP 协议(2024)

单个 Agent 的上限,是一个全能但容易过载的人。多 Agent 的思路是:让不同 Agent 各自专精,像团队一样协作。

MetaGPT(清华团队):把软件开发流程映射成 Agent 角色——产品经理 Agent 写需求文档,架构师 Agent 设计系统,工程师 Agent 写代码,测试 Agent 验证。角色分工让复杂任务的成功率大幅提升。

AutoGen(微软):更灵活的双 Agent 架构——用户代理(UserProxy)和助手代理(Assistant)相互对话,支持人工介入任意环节。

CrewAI:易上手的多 Agent 框架,适合快速原型,但定制性弱。

同年(2024 年 11 月),Anthropic 开源了 MCP(Model Context Protocol,模型上下文协议)

MCP 的定位:AI 工具调用的 USB 标准

在 MCP 之前,每个框架都有自己的工具接入方式,LangChain 的工具、OpenAI 的 Function Call、各家都不兼容。MCP 提供了一套标准化的接口,任何支持 MCP 的 Agent 都能直接使用任何 MCP Server 提供的工具,无需重新适配。

2025 年,MCP 生态爆炸增长:GitHub、Slack、Jira、Notion、数据库……超过 100 个主流工具发布了官方 MCP Server,开源社区贡献的更多达数千个。

MCP 的出现意味着:Agent 的工具边界第一次开始消失


第五阶段:Computer Use 与深度 Agent(2024 年末 - 2025)

2024 年 10 月,Anthropic 发布了 Computer Use for Claude 3.5 Sonnet

这是一个质的跃迁。

之前的工具调用,都依赖 API:软件必须有 API,Agent 才能操作它。全球绝大多数遗留软件没有 API,无法被 Agent 触及。

Computer Use 让 Claude 直接「看截图、移鼠标、点按钮、键盘输入」。任何有界面的软件,不管有没有 API,Claude 都可以像人类一样操作。

这意味着:全球所有软件,原则上都成了 AI Agent 可以操作的工具

同期,Claude Code 作为面向开发者的深度 Agent 上线——能读整个代码库、写代码、运行测试、修 bug、提 PR。不是「帮你写代码片段」,而是「作为一个真实的开发者参与你的项目」。

OpenAI 在 2025 年初推出了 Operator:一个能自主在浏览器里完成多步任务的 Agent——预订餐厅、填写表单、下订单,不需要用户介入每一步。

OpenAI Agents SDK 同年发布,是 Swarm 实验项目的生产版本,提供四个核心原语:Agent(智能体)、Handoffs(移交)、Guardrails(护栏)、Tracing(追踪)。

这一阶段的标志性概念是:Agent 开始有了「全局视野」——它不再是对话框里的助手,而是能够在你的电脑、你的服务器上持续运行、完成真实工作的数字员工。


第六阶段:自我进化 Agent(2025 - 2026)

2026 年的新主题:Agent 开始维护自己

这是 Hermes Agent(NousResearch)的核心命题:一个 Agent 不仅执行任务,还在每次任务结束后自动反思、把有价值的经验写成「技能文件」,下次遇到相似问题时直接调用。

Hermes Agent v0.12.0 的 Autonomous Curator 把这个逻辑推进了一步:系统后台每 7 天自动运行一次,对技能库进行评分、整合、清理——不需要用户手动管理,Agent 自己保持整洁高效。

同期,A2A(Agent-to-Agent)协议由 Google 推出,由 Linux 基金会管理,150+ 合作组织加入。A2A 解决的问题是:不同框架的 Agent 如何互相发现、委托任务、协作完成。如果说 MCP 是 Agent 和工具之间的 USB,A2A 就是 Agent 和 Agent 之间的语言。

这一阶段的核心特征:Agent 从「执行者」变成了「系统组件」——一个具备自我维护能力的、可以和其他 Agent 协作的、持续学习的实体。


三、各家路线:一张全景地图

OpenAI:开发者生态优先

OpenAI 的 Agent 路线:从产品出发,往平台进化。

时间里程碑
2023.06Function Calling,奠定工具调用标准
2023.11GPTs Store,把 Agent 带给普通用户
2025 Q1Agents SDK(Swarm 继任),四原语框架
2025 Q1Operator,浏览器自主 Agent 产品
2025 Q4AgentKit,全生命周期开发套件
2026.04Agents SDK 大更新:9 个沙箱提供商、Codex 工具集成

OpenAI 的策略是:先占领开发者思维,再建生态护城河。目前 OpenAI 拥有最大的开发者社区和最成熟的应用生态。缺点是 Assistants API(2026 年 8 月退役)代表的旧路线对开发者造成了负担,框架频繁变更。

核心产品:ChatGPT(消费级)、Operator(浏览器 Agent)、Agents SDK(开发者)


Anthropic:安全、能力、协议三管齐下

Anthropic 的特点是:每次发布都比同行慢半步,但质量更高,且更强调安全

时间里程碑
2024.05Claude 3 Tool Use,高质量工具调用
2024.10Computer Use,操作任意软件界面
2024.11MCP 开源,建立工具连接标准
2025 下半年Claude Code SDK → Claude Agent SDK(重命名)
2026.04Claude Managed Agents 公测:沙箱、检查点、凭证隔离

Anthropic 最聪明的一步是开源 MCP:用一个开放标准建立生态,让工具集成商朝着 Anthropic 的规格做开发,形成网络效应。MCP 已经事实上成为业界标准。

核心定位:推理质量 + 安全边界 + 企业合规(法律、金融、医疗、政府的首选)


Google:企业基础设施 + 多模型战略

Google 在 Agent 赛道的独特优势:垂直整合——从模型(Gemini)到开发框架(ADK)到托管运行时(Vertex AI Agent Engine)到企业前台(Gemini Enterprise)。

时间里程碑
2025.04ADK(Agent Development Kit)发布
2025 Q3Gemini 2.0 + Astra 多模态感知
2025.10Gemini Enterprise,企业 Agent 舰队管理
2025A2A 协议,Agent 间通信标准
2026Vertex AI Agent Engine,托管 Agent 运行时

ADK 的设计思路与 OpenAI / Anthropic 不同:它以多 Agent 系统为第一公民,而非单个 Agent。它支持 Python / TypeScript / Go / Java,面向企业多语言团队。

A2A 协议意义深远:如果说 MCP 解决了「一个 Agent 怎么用工具」,A2A 解决了「一群 Agent 怎么协同工作」。

核心定位:企业级 Agent 基础设施,Google Workspace 深度整合


微软:AutoGen → 企业 AI 平台

微软通过对 OpenAI 的战略投资(估值 1570 亿美元的 30% 股份),直接在产品层面整合 GPT 能力。独立贡献在于:

  • AutoGen(2023):双代理对话框架,专注代码生成和软件开发自动化
  • Magentic-One(2024):五预设 Agent 的通用任务框架
  • Microsoft Agent Framework(2025):AutoGen 的生产化继任,与 Azure AI Studio 深度整合
  • GitHub Copilot:目前落地最广的 AI 编程 Agent,月活开发者超过 1500 万

微软的策略:不打模型战争,打场景战争。把 AI Agent 能力嵌入 Office 365、GitHub、Teams、Azure,用已有企业客户基础快速落地。


开源阵营:从 LangChain 到自托管 Agent

框架特点当前地位
LangChain(2022)链式编排,工具包最丰富原型开发标配,生产中被 LangGraph 取代
LangGraph(2024)有向图状态机,生产级可靠性企业生产首选之一
CrewAI角色驱动多 Agent,极易上手快速原型 / 教学演示
AutoGPT(进化后)目标导向自主 Agent,更可控版本社区活跃但非主流生产框架
Hermes Agent持久记忆 + 技能自进化 + 多消息平台 + 自托管2026 年自托管首选,127K+ Stars
OpenClaw模型无关 + 多渠道 + ClawHub 社区开源社区生态最活跃之一

Hermes Agent 和 OpenClaw 的出现,标志着开源 Agent 进入了「生产可用」阶段:持久记忆、多平台接入、技能系统、数据本地化,都是面向真实长期使用场景设计的,不再只是实验框架。


四、技术架构:四个核心问题

记忆系统:Agent 的长期脊柱

Agent 记忆分四个层次:

  1. In-context 记忆:当前对话窗口内。速度最快,但有上限(即使 1M Token 也会饱和),关闭即消失。
  2. 外部记忆(RAG):向量数据库 + 检索。支持海量知识,但检索相关性是关键,质量不稳定。
  3. 文件系统记忆:结构化存储到 SQLite / JSON / Markdown 文件。Hermes Agent 的技能文件就是这类,可读可编辑可移植。
  4. 模型微调:把知识烧进权重。成本最高,最持久,但更新慢。

生产级 Agent 通常用 2 + 3 的组合:向量检索覆盖大量知识,文件系统存储个人偏好和可复用技能。


工具调用:从 Function Call 到 MCP

工具调用的演进路径:

早期 Prompt 工程(不稳定)
→ Function Call JSON(2023, 结构化但专有)
→ MCP Server(2024, 开放标准,一次实现到处用)
→ A2A(2025, Agent 之间的协作协议)

MCP 之后,工具生态的建设成本大幅下降:开发者实现一次 MCP Server,所有支持 MCP 的 Agent 都能使用。这是为什么 2025 年 MCP Server 数量从 0 增长到数千个的原因。


规划机制:从 CoT 到 CoA

Chain-of-Thought(CoT,思维链):让模型输出中间推理步骤。2022 年的 Google 论文提出,o1 系列将其内化为训练目标。

Chain-of-Action(CoA,行动链):2026 年的范式。Agent 不只思考,还主动探索——如果不确定某个工具怎么用,它会发起低风险的实验来推断接口行为,然后再执行主任务。

这是一种元认知能力:Agent 知道自己不知道,并主动去验证,而不是假设


多 Agent 协调

单 Agent 的局限是认知负载上限:任务复杂到一定程度,单个上下文窗口装不下所有信息,可靠性断崖式下降。

多 Agent 的核心设计模式:

  • 分层架构:Orchestrator Agent 负责规划和分配,Sub-Agent 负责执行具体子任务
  • 专家 Agent 网络:每个 Agent 专精一个领域(代码、数据、通信、文件管理)
  • 检查点 + 人工介入:在关键决策点暂停,等待人类审批,然后继续

2026 年 4 月,Anthropic(Claude Managed Agents)和 OpenAI(Agents SDK 大更新)在同一周内发布了几乎相同的多 Agent 基础设施架构。这是行业收敛的信号:什么是 Agent 的正确工程结构,头部厂商已经达成共识。


五、2026 年的现状:哪里还在打架

已经收敛的部分

  • 工具调用标准:MCP 事实胜出,OpenAI、Google、微软都已支持
  • 单 Agent 架构:控制面 + 计算面分离,带检查点的沙箱执行,已成标配
  • 记忆系统:短期 in-context + 长期向量/文件,组合方案基本固定

仍在争夺的部分

  • Agent 间通信协议:A2A(Google/Linux 基金会)vs 各家私有实现
  • 自主权边界:多少自主权是合理的?出了问题谁负责?
  • 本地 vs 云端:Hermes / OpenClaw 等自托管路线 vs OpenAI / Anthropic 托管路线
  • Agent OS:下一个战场——Agent 是否会取代部分操作系统层的调度功能

六、未来方向

Agent OS:下一代操作系统的候选

2026 年 4 月,ColaOS 提出了更激进的概念。传统操作系统调度 CPU、内存、I/O;Agent OS 调度 AI Agent、工具调用、人机交互。

它不替代操作系统,而是在上层:你的所有数字任务,都经过一个 Agent 层路由和执行。

早期信号:苹果 Intelligence 深度整合 Gemini(Google 10 亿美元合作),Siri 从「语音助手」向「Agent 前台」转型。你和 AI 的交互界面,可能从「应用」变成「Agent」。


分布式主权 Agent

当前 Agent 有一个核心矛盾:你希望 Agent 越聪明、越能干,但这意味着更多数据流向云端,更多隐私风险。

未来方向是决策和执行解耦

  • 决策层:在本地运行(轻量模型 + 规则),处理隐私数据,做访问控制
  • 执行层:调用云端大模型完成需要强推理的部分,但只传递脱敏后的任务描述

Hermes Agent 的「数据留在你的服务器」路线,是这个方向的早期形态。


自我进化闭环

目前的 Hermes Agent Curator 是规则驱动的技能管理:清理、整合、评分。

下一步是意图驱动的自我进化:Agent 根据主人的长期目标,主动识别自己的短板,设计实验,优化自身的技能库和行为模式。

这接近于强化学习——但在 Agent 层而非模型层,成本更低,周期更短,更贴近具体用户的场景。

**DSPy + 遗传算法提示进化(GEPA)**的组合,已经有早期实验:Agent 自动测试不同的提示写法,保留效果最好的,这个过程本身也是一个 ReAct 循环。


结语

从 2022 年的 ReAct 论文,到 2026 年的 Autonomous Curator,AI Agent 的每一次演进,本质上都是在让那个最基础的循环更完整、更可靠、更自动化

观察世界 → 思考 → 采取行动 → 看结果 → 调整 → 再观察

这个循环,就是智能的本质——无论是人类、还是 AI。

区别只是:现在的 AI Agent,第一次开始有能力自己维护这个循环了


参考资料:OpenAI Agents SDK · Anthropic MCP · Google ADK · Hermes Agent GitHub · ReAct 原论文