跳转至

基于大语言模型的智能体

大语言模型(LLM)已从"文本生成器"演变为自主智能体的"大脑"。这些 LLM 驱动的智能体(LLM-Based Agents) 能够感知环境、规划多步骤行动、使用工具、从经验中学习,并与其他智能体协作完成复杂任务。

什么是 LLM 智能体?

LLM 智能体是一种以 LLM 为核心控制器的系统——负责规划、推理和决策下一步行动。智能体通常配备以下能力:

  • 工具 — API 调用、代码执行、网页搜索、文件 I/O、浏览器自动化等
  • 记忆 — 持久化存储用户偏好、已学事实和会话历史
  • 多智能体 — 多个专业智能体协同工作
  • 环境交互 — 通过可用接口感知并作用于世界
┌─────────────────────────────────────────────────────────────┐
│                     LLM 智能体                               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌──────────────────────────────────────────────────────┐  │
│   │                   核心 LLM                             │  │
│   │            (规划、推理、决策)                          │  │
│   └──────────────────────────────────────────────────────┘  │
│                          │                                   │
│          ┌───────────────┼───────────────┐                  │
│          ▼               ▼               ▼                   │
│   ┌────────────┐  ┌────────────┐  ┌────────────┐          │
│   │   工具     │  │   记忆     │  │  智能体   │          │
│   │ web/code/ │  │   持久化   │  │  多智能体 │          │
│   │  文件 I/O │  │  + 会话   │  │   路由   │          │
│   └────────────┘  └────────────┘  └────────────┘          │
│                                                             │
└─────────────────────────────────────────────────────────────┘

为什么 2024–2025 是"智能体时代"

多因素 convergence 使 LLM 智能体成为主流:

  • 更强大的 LLM — GPT-4o、Claude 3.5、Gemini、DeepSeek-V3、o1/o3 推理模型提供更强的推理和规划能力
  • 工具使用 — OpenAI 的 function calling、Anthropic 的 tool use、原生 API 支持使工具集成标准化
  • 记忆系统 — RAG、向量数据库和智能体专用记忆架构(Forms–Functions–Dynamics)趋于成熟
  • 多智能体编排 — AutoGen、CrewAI、LangGraph、Swarm 等框架使多智能体开发民主化
  • 企业采用 — 约 90% 的高增长 AI 初创公司正在积极部署或试验智能体(Iconiq Capital 2025 AI 报告)

智能体循环:智能体如何思考和行动

每个智能体都遵循核心执行周期。最具影响力的范式是 ReAct(Reasoning + Acting):

┌─────────────────────────────────────────────────────────────┐
│                  ReAct 智能体循环                           │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  用户输入                                                    │
│      │                                                      │
│      ▼                                                      │
│  ┌─────────────────────────────────────────────────────┐   │
│  │   ┌──────────┐  ┌──────────┐  ┌───────────────┐   │   │
│  │   │  思考    │→ │  行动    │→ │  观察        │   │   │
│  │   │(推理)   │  │(工具调用) │  │(获取结果)    │   │   │
│  │   └──────────┘  └──────────┘  └───────────────┘   │   │
│  │         ↑                                       │      │   │
│  │         └───────────────────────────────────────┘      │   │
│  └─────────────────────────────────────────────────────┘   │
│      │                                                      │
│      ▼                                                      │
│  最终回复                                                    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

其他循环模式包括:

模式 描述 最佳场景
ReAct 推理与执行交叉进行 开放域问答、外部信息检索
先规划后执行 先制定全局计划,再逐步执行 长链路任务、报告生成
反思 / 自我优化 生成 → 评估 → 迭代改进 高质量文本/代码生成
监督者 + 工作者 经理分配任务给专家 复杂多步骤流水线

核心组件

1. 工具系统

智能体通过工具获得真实世界的能力。每个工具具有: - 名称**和**描述 — 让 LLM 知道何时使用它 - 参数 — LLM 填写的 JSON schema - 处理器 — 实际运行工具的代码

常见工具类别:Shell 执行、文件 I/O、网络搜索、浏览器自动化、代码执行、API 调用、数据库查询。

2. 记忆系统

智能体在会话之间持久化信息。根据最新综述,智能体记忆经历了三个阶段:

时代 方法 局限性
2020–2023 经典 RAG(只读) 无法从交互中学习
2023–2024 Agentic RAG(智能检索) 仍是只读,无学习能力
2024+ 真正的智能体记忆(读 + 写) 可以创建、更新、删除;从经验中学习

智能体记忆可按**形式**(token 级、参数化、隐式)和**功能**(事实型、经验型、工作型)分类。详见 智能体架构

3. 多智能体协作

当单个智能体不足时,多个专业智能体协作:

  • 监督者 / 路由器 — 决定哪个智能体处理请求
  • 专家智能体 — 各自擅长一个领域(编程、研究、写作)
  • 通信协议 — 智能体之间相互传递结果

章节导览

本章涵盖三个相互关联的主题:

章节 文件 内容
智能体架构 agent_architectures.md 核心模式:工具使用、记忆(RAG → 智能体记忆)、推理循环、规划、安全,附 Hermes Agent 具体案例
多智能体系统 multi_agent_systems.md OpenAI Swarm、AutoGen/MAF、Stanford 生成式智能体、CrewAI、LangGraph——含架构对比和代码示例
大模型基础 llm_basics.md API 调用(OpenAI、Anthropic、Gemini、DeepSeek、Qwen)、本地部署(llama.cpp、Ollama、vLLM、TGI)、编程助手

为什么智能体对机器人重要

智能体正在成为机器人系统的关键接口层:

用户命令("捡起红色方块")
┌─────────────────┐
│  智能体 (LLM)    │ ← 规划:检测方块 → 规划抓取 → 执行
└────────┬────────┘
         │ 工具调用
┌─────────────────┐
│  感知模块        │ ← 相机 → YOLO → 找到红色方块
└────────┬────────┘
┌─────────────────┐
│  操作模块        │ ← 抓取规划 → 机械臂控制
└────────┬────────┘
    机器人动作

LLM 驱动的智能体可以作为机器人的**任务规划器**——将高层自然语言命令转化为可执行的机器人动作,推理失败原因并动态调整计划。

参考资料