基于大语言模型的智能体¶

大语言模型（LLM）已从"文本生成器"演变为自主智能体的"大脑"。这些 LLM 驱动的智能体（LLM-Based Agents） 能够感知环境、规划多步骤行动、使用工具、从经验中学习，并与其他智能体协作完成复杂任务。

什么是 LLM 智能体？¶

LLM 智能体是一种以 LLM 为核心控制器的系统——负责规划、推理和决策下一步行动。智能体通常配备以下能力：

工具 — API 调用、代码执行、网页搜索、文件 I/O、浏览器自动化等
记忆 — 持久化存储用户偏好、已学事实和会话历史
多智能体 — 多个专业智能体协同工作
环境交互 — 通过可用接口感知并作用于世界

┌─────────────────────────────────────────────────────────────┐
│                     LLM 智能体                               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌──────────────────────────────────────────────────────┐  │
│   │                   核心 LLM                             │  │
│   │            (规划、推理、决策)                          │  │
│   └──────────────────────────────────────────────────────┘  │
│                          │                                   │
│          ┌───────────────┼───────────────┐                  │
│          ▼               ▼               ▼                   │
│   ┌────────────┐  ┌────────────┐  ┌────────────┐          │
│   │   工具     │  │   记忆     │  │  智能体   │          │
│   │ web/code/ │  │   持久化   │  │  多智能体 │          │
│   │  文件 I/O │  │  + 会话   │  │   路由   │          │
│   └────────────┘  └────────────┘  └────────────┘          │
│                                                             │
└─────────────────────────────────────────────────────────────┘

为什么 2024–2025 是"智能体时代"¶

多因素 convergence 使 LLM 智能体成为主流：

更强大的 LLM — GPT-4o、Claude 3.5、Gemini、DeepSeek-V3、o1/o3 推理模型提供更强的推理和规划能力
工具使用 — OpenAI 的 function calling、Anthropic 的 tool use、原生 API 支持使工具集成标准化
记忆系统 — RAG、向量数据库和智能体专用记忆架构（Forms–Functions–Dynamics）趋于成熟
多智能体编排 — AutoGen、CrewAI、LangGraph、Swarm 等框架使多智能体开发民主化
企业采用 — 约 90% 的高增长 AI 初创公司正在积极部署或试验智能体（Iconiq Capital 2025 AI 报告）

智能体循环：智能体如何思考和行动¶

每个智能体都遵循核心执行周期。最具影响力的范式是 ReAct（Reasoning + Acting）：

┌─────────────────────────────────────────────────────────────┐
│                  ReAct 智能体循环                           │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  用户输入                                                    │
│      │                                                      │
│      ▼                                                      │
│  ┌─────────────────────────────────────────────────────┐   │
│  │   ┌──────────┐  ┌──────────┐  ┌───────────────┐   │   │
│  │   │  思考    │→ │  行动    │→ │  观察        │   │   │
│  │   │(推理)   │  │(工具调用) │  │(获取结果)    │   │   │
│  │   └──────────┘  └──────────┘  └───────────────┘   │   │
│  │         ↑                                       │      │   │
│  │         └───────────────────────────────────────┘      │   │
│  └─────────────────────────────────────────────────────┘   │
│      │                                                      │
│      ▼                                                      │
│  最终回复                                                    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

其他循环模式包括：

模式	描述	最佳场景
ReAct	推理与执行交叉进行	开放域问答、外部信息检索
先规划后执行	先制定全局计划，再逐步执行	长链路任务、报告生成
反思 / 自我优化	生成 → 评估 → 迭代改进	高质量文本/代码生成
监督者 + 工作者	经理分配任务给专家	复杂多步骤流水线

核心组件¶

1. 工具系统¶

智能体通过工具获得真实世界的能力。每个工具具有： - 名称**和**描述 — 让 LLM 知道何时使用它 - 参数 — LLM 填写的 JSON schema - 处理器 — 实际运行工具的代码

常见工具类别：Shell 执行、文件 I/O、网络搜索、浏览器自动化、代码执行、API 调用、数据库查询。

2. 记忆系统¶

智能体在会话之间持久化信息。根据最新综述，智能体记忆经历了三个阶段：

时代	方法	局限性
2020–2023	经典 RAG（只读）	无法从交互中学习
2023–2024	Agentic RAG（智能检索）	仍是只读，无学习能力
2024+	真正的智能体记忆（读 + 写）	可以创建、更新、删除；从经验中学习

智能体记忆可按**形式**（token 级、参数化、隐式）和**功能**（事实型、经验型、工作型）分类。详见智能体架构。

3. 多智能体协作¶

当单个智能体不足时，多个专业智能体协作：

监督者 / 路由器 — 决定哪个智能体处理请求
专家智能体 — 各自擅长一个领域（编程、研究、写作）
通信协议 — 智能体之间相互传递结果

章节导览¶

本章涵盖三个相互关联的主题：

章节	文件	内容
智能体架构	agent_architectures.md	核心模式：工具使用、记忆（RAG → 智能体记忆）、推理循环、规划、安全，附 Hermes Agent 具体案例
多智能体系统	multi_agent_systems.md	OpenAI Swarm、AutoGen/MAF、Stanford 生成式智能体、CrewAI、LangGraph——含架构对比和代码示例
大模型基础	llm_basics.md	API 调用（OpenAI、Anthropic、Gemini、DeepSeek、Qwen）、本地部署（llama.cpp、Ollama、vLLM、TGI）、编程助手

为什么智能体对机器人重要¶

智能体正在成为机器人系统的关键接口层：

用户命令（"捡起红色方块"）
       │
       ▼
┌─────────────────┐
│  智能体 (LLM)    │ ← 规划：检测方块 → 规划抓取 → 执行
└────────┬────────┘
         │ 工具调用
         ▼
┌─────────────────┐
│  感知模块        │ ← 相机 → YOLO → 找到红色方块
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│  操作模块        │ ← 抓取规划 → 机械臂控制
└────────┬────────┘
         │
         ▼
    机器人动作

LLM 驱动的智能体可以作为机器人的**任务规划器**——将高层自然语言命令转化为可执行的机器人动作，推理失败原因并动态调整计划。

参考资料¶

ReAct: 推理与行动的协同 — 核心智能体循环范式
生成式智能体：人类行为的交互模拟 — 斯坦福 Smallville
AutoGen: 通过多智能体会话实现下一代 LLM 应用 — 微软研究院
AI 智能体时代的记忆：综述 — NUS、人民大学、复旦（全面记忆分类）
OpenAI Swarm — 教育目的多智能体框架
CrewAI 文档 — 角色驱动多智能体框架
LangGraph 文档 — 基于图的工作流智能体
Iconiq Capital: 2025 AI 现状 — 企业 AI 采用数据
Hermes Agent (Nous Research) — 自我改进单智能体
构建有效智能体 (Anthropic) — 生产智能体模式