基于大语言模型的智能体¶
大语言模型(LLM)已从"文本生成器"演变为自主智能体的"大脑"。这些 LLM 驱动的智能体(LLM-Based Agents) 能够感知环境、规划多步骤行动、使用工具、从经验中学习,并与其他智能体协作完成复杂任务。
什么是 LLM 智能体?¶
LLM 智能体是一种以 LLM 为核心控制器的系统——负责规划、推理和决策下一步行动。智能体通常配备以下能力:
- 工具 — API 调用、代码执行、网页搜索、文件 I/O、浏览器自动化等
- 记忆 — 持久化存储用户偏好、已学事实和会话历史
- 多智能体 — 多个专业智能体协同工作
- 环境交互 — 通过可用接口感知并作用于世界
┌─────────────────────────────────────────────────────────────┐
│ LLM 智能体 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 核心 LLM │ │
│ │ (规划、推理、决策) │ │
│ └──────────────────────────────────────────────────────┘ │
│ │ │
│ ┌───────────────┼───────────────┐ │
│ ▼ ▼ ▼ │
│ ┌────────────┐ ┌────────────┐ ┌────────────┐ │
│ │ 工具 │ │ 记忆 │ │ 智能体 │ │
│ │ web/code/ │ │ 持久化 │ │ 多智能体 │ │
│ │ 文件 I/O │ │ + 会话 │ │ 路由 │ │
│ └────────────┘ └────────────┘ └────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
为什么 2024–2025 是"智能体时代"¶
多因素 convergence 使 LLM 智能体成为主流:
- 更强大的 LLM — GPT-4o、Claude 3.5、Gemini、DeepSeek-V3、o1/o3 推理模型提供更强的推理和规划能力
- 工具使用 — OpenAI 的 function calling、Anthropic 的 tool use、原生 API 支持使工具集成标准化
- 记忆系统 — RAG、向量数据库和智能体专用记忆架构(Forms–Functions–Dynamics)趋于成熟
- 多智能体编排 — AutoGen、CrewAI、LangGraph、Swarm 等框架使多智能体开发民主化
- 企业采用 — 约 90% 的高增长 AI 初创公司正在积极部署或试验智能体(Iconiq Capital 2025 AI 报告)
智能体循环:智能体如何思考和行动¶
每个智能体都遵循核心执行周期。最具影响力的范式是 ReAct(Reasoning + Acting):
┌─────────────────────────────────────────────────────────────┐
│ ReAct 智能体循环 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 用户输入 │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ ┌──────────┐ ┌──────────┐ ┌───────────────┐ │ │
│ │ │ 思考 │→ │ 行动 │→ │ 观察 │ │ │
│ │ │(推理) │ │(工具调用) │ │(获取结果) │ │ │
│ │ └──────────┘ └──────────┘ └───────────────┘ │ │
│ │ ↑ │ │ │
│ │ └───────────────────────────────────────┘ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ 最终回复 │
│ │
└─────────────────────────────────────────────────────────────┘
其他循环模式包括:
| 模式 | 描述 | 最佳场景 |
|---|---|---|
| ReAct | 推理与执行交叉进行 | 开放域问答、外部信息检索 |
| 先规划后执行 | 先制定全局计划,再逐步执行 | 长链路任务、报告生成 |
| 反思 / 自我优化 | 生成 → 评估 → 迭代改进 | 高质量文本/代码生成 |
| 监督者 + 工作者 | 经理分配任务给专家 | 复杂多步骤流水线 |
核心组件¶
1. 工具系统¶
智能体通过工具获得真实世界的能力。每个工具具有: - 名称**和**描述 — 让 LLM 知道何时使用它 - 参数 — LLM 填写的 JSON schema - 处理器 — 实际运行工具的代码
常见工具类别:Shell 执行、文件 I/O、网络搜索、浏览器自动化、代码执行、API 调用、数据库查询。
2. 记忆系统¶
智能体在会话之间持久化信息。根据最新综述,智能体记忆经历了三个阶段:
| 时代 | 方法 | 局限性 |
|---|---|---|
| 2020–2023 | 经典 RAG(只读) | 无法从交互中学习 |
| 2023–2024 | Agentic RAG(智能检索) | 仍是只读,无学习能力 |
| 2024+ | 真正的智能体记忆(读 + 写) | 可以创建、更新、删除;从经验中学习 |
智能体记忆可按**形式**(token 级、参数化、隐式)和**功能**(事实型、经验型、工作型)分类。详见 智能体架构。
3. 多智能体协作¶
当单个智能体不足时,多个专业智能体协作:
- 监督者 / 路由器 — 决定哪个智能体处理请求
- 专家智能体 — 各自擅长一个领域(编程、研究、写作)
- 通信协议 — 智能体之间相互传递结果
章节导览¶
本章涵盖三个相互关联的主题:
| 章节 | 文件 | 内容 |
|---|---|---|
| 智能体架构 | agent_architectures.md | 核心模式:工具使用、记忆(RAG → 智能体记忆)、推理循环、规划、安全,附 Hermes Agent 具体案例 |
| 多智能体系统 | multi_agent_systems.md | OpenAI Swarm、AutoGen/MAF、Stanford 生成式智能体、CrewAI、LangGraph——含架构对比和代码示例 |
| 大模型基础 | llm_basics.md | API 调用(OpenAI、Anthropic、Gemini、DeepSeek、Qwen)、本地部署(llama.cpp、Ollama、vLLM、TGI)、编程助手 |
为什么智能体对机器人重要¶
智能体正在成为机器人系统的关键接口层:
用户命令("捡起红色方块")
│
▼
┌─────────────────┐
│ 智能体 (LLM) │ ← 规划:检测方块 → 规划抓取 → 执行
└────────┬────────┘
│ 工具调用
▼
┌─────────────────┐
│ 感知模块 │ ← 相机 → YOLO → 找到红色方块
└────────┬────────┘
│
▼
┌─────────────────┐
│ 操作模块 │ ← 抓取规划 → 机械臂控制
└────────┬────────┘
│
▼
机器人动作
LLM 驱动的智能体可以作为机器人的**任务规划器**——将高层自然语言命令转化为可执行的机器人动作,推理失败原因并动态调整计划。
参考资料¶
- ReAct: 推理与行动的协同 — 核心智能体循环范式
- 生成式智能体:人类行为的交互模拟 — 斯坦福 Smallville
- AutoGen: 通过多智能体会话实现下一代 LLM 应用 — 微软研究院
- AI 智能体时代的记忆:综述 — NUS、人民大学、复旦(全面记忆分类)
- OpenAI Swarm — 教育目的多智能体框架
- CrewAI 文档 — 角色驱动多智能体框架
- LangGraph 文档 — 基于图的工作流智能体
- Iconiq Capital: 2025 AI 现状 — 企业 AI 采用数据
- Hermes Agent (Nous Research) — 自我改进单智能体
- 构建有效智能体 (Anthropic) — 生产智能体模式