一、核心一句话
AI Agent = 能够理解任务、规划步骤,并通过调用工具完成工作的 AI 系统。
它不仅仅是聊天,而是能够:
- 理解目标
- 制定计划
- 调用工具
- 根据结果继续决策
- 直到任务完成
简单说:
AI Agent = 会思考 + 会行动 的 AI。
二、整套系统的人体类比
用人体结构来理解整个 Agent 系统:
text组件 人体 作用 -------------- ---------- -------------- LLM 大模型 大脑 思考与决策 Tool Calling 神经信号 发出行动指令 Agent 框架 身体 协调与调度 工具 / API 手脚 执行动作 Skill 技能 已掌握能力 Memory 记忆 存储经验 MCP 协议 接口标准 统一工具连接
整个系统就像:
一个拥有大脑、身体、技能、工具和记忆的 AI 员工。
三、核心组件详解
1. LLM 大模型 = 大脑
LLM(Large Language Model)是 Agent 的核心决策者。
主要负责:
- 理解用户问题
- 推理和思考
- 制定任务计划
- 决定下一步行动
- 生成语言回复
但需要注意一个关键事实:
LLM 本身不会直接执行外部操作。
例如它不会直接:
- 访问互联网
- 查询数据库
- 运行代码
- 调用 API
这些实际操作需要通过 工具(Tools)或运行时系统 来完成。
因此:
LLM 负责 决定做什么
Tools 负责 真正执行操作
2. Tool Calling = 神经信号
当 LLM 决定需要执行某个操作时,它会生成一个 工具调用指令(Tool Call)。
通常是结构化数据,例如:
json{ "tool": "get_weather", "arguments": { "city": "Singapore" } }
这个指令的含义是:
请调用
get_weather工具查询 Singapore 的天气。
重要理解:
- Tool Call 只是 行动指令
- 它本身不会执行
- 需要 Agent Runtime 解析并执行
"方言"类比
Tool Calling 可以理解为 不同模型之间的"方言"。
不同模型厂商表达"调用工具"这件事的 数据格式可能不同,
但它们想表达的 实际意思是一样的。
例如:
text模型 调用方式 --------------- ------------------ OpenAI Function Calling Anthropic Tool Use Google Gemini Tool Schema
虽然表达方式不同,但本质都是:
请调用某个工具,并传入参数。
就像不同地区的人说话方式不同,但表达的是同一个意思。
因此 Agent 框架通常需要做 格式适配。
3. Agent 框架 = 身体
Agent 框架(Agent Runtime)负责连接 LLM 与工具。
它主要承担几个职责:
解析工具调用
当模型返回:
{ tool: search, query: "AI Agent" }
框架会解析这个指令。
调度工具执行
找到对应工具并执行,例如:
search("AI Agent")
返回执行结果
工具执行结果会返回给 LLM,模型继续思考下一步。
控制 Agent 循环
典型循环模式:
Thought → Action → Observation
即:
- 思考下一步
- 调用工具执行
- 观察执行结果
循环直到任务完成。
管理状态与记忆
包括:
- 对话上下文
- 中间结果
- 任务状态
常见 Agent 框架:
- LangChain
- CrewAI
- AutoGPT
- OpenAI Agents SDK
4. 工具 / API / 程序 = 手脚
工具(Tools)是真正执行动作的组件。
只有工具能够:
- 访问互联网
- 查询数据库
- 执行代码
- 调用第三方服务
- 操作文件
例如:
- 搜索工具
- 天气 API
- 数据库查询
- Python 计算
- 浏览器自动化
核心原则:
只有工具能够真正改变外部世界。
5. Skill = AI 的能力模块
Skill 可以理解为:
一种封装好的可复用能力模块。
例如:
- 数据分析
- 天气查询
- 文档总结
- 写代码
一个 Skill 通常包含:
- Prompt(思考方式)
- Tools(需要调用的工具)
- Workflow(任务步骤)
- Code(程序逻辑)
例如:
天气查询 Skill 可能包含流程:
- 提取城市
- 调用天气 API
- 分析天气
- 给出建议
需要注意:
Skill 不是一个统一标准概念。
不同框架中的实现形式不同,例如:
text框架 对应概念 ----------------- -------------- LangChain Chain / Tool CrewAI Task Semantic Kernel Skill OpenAI Agents Tool
因此这里的 Skill 更像是一种 抽象能力概念。
6. Memory = 记忆系统
为了完成复杂任务,Agent 需要记忆能力。
常见记忆类型:
Working Memory
当前推理循环中的状态,例如:
- 当前步骤
- 中间结果
Short-term Memory
当前对话上下文,例如:
- 用户提问
- 历史对话
Long-term Memory
长期存储的信息,例如:
- 用户偏好
- 历史任务
Vector Memory
通过向量数据库实现知识检索,用于:
- 文档检索
- 知识库
通常与 RAG(Retrieval Augmented Generation) 结合使用。
7. MCP 协议 = 标准化接口
MCP(Model Context Protocol)是一套 标准化协议,用于让 AI 模型以统一方式访问外部能力。
它不仅仅用于工具调用,还定义了三类能力:
text类型 含义 ----------- ---------------- Tools 可执行操作 Resources 可读取资源 Prompts 可复用提示模板
MCP 的目标是:
让不同模型、框架和工具之间能够 标准化连接。
可以理解为:
- AI 世界的 USB 接口
- 模型访问外部能力的 统一标准
四、完整工作流程
mermaidgraph TD A[用户提出任务] --> B[LLM 理解任务] B --> C{是否需要工具} C -->|否| D[直接生成回答] C -->|是| E[生成 Tool Call] E --> F[Agent Runtime 解析] F --> G[调用工具] G --> H[返回结果] H --> I[LLM 再次思考] I --> J{任务完成?} J -->|否| E J -->|是| K[生成最终答案]
五、终极总结
text组件 比喻 作用 -------------- ---------- ---------------- LLM 大脑 推理和决策 Tool Calling 神经信号 发出行动指令 Agent 框架 身体 调度执行 Tools 手脚 执行实际操作 Skill 技能 可复用能力模块 Memory 记忆 存储经验 MCP USB接口 标准化访问能力
六、最终理解
可以把 AI Agent 想象成:
一个拥有技能、工具和记忆的 AI 员工。
你只需要给它一个目标:
完成这个任务。
它会自己:
理解任务 → 制定计划 → 调用工具 → 不断尝试 → 直到完成任务