机器人任务:从导航到操作¶
机器人领域涵盖了广泛的任务类型,每种任务都有其独特的目标、评估指标和前沿方法。本模块系统介绍现代机器人研究中的主要任务类别,重点说明**每种任务需要什么能力**、如何进行基准测试、以及**这些知识应用在何处**。
任务分类体系¶
机器人任务
├── 导航 (Navigation)
│ ├── 点目标导航 (Point-Goal Navigation / PointNav)
│ ├── 物体目标导航 (Object-Goal Navigation / ObjectNav)
│ ├── 视觉语言导航 (Vision-Language Navigation / VLN)
│ ├── 探索 / 主动建图 (Exploration / Active Mapping)
│ ├── 社交导航 (Social Navigation)
│ └── 同时定位与建图 (SLAM,见专门章节)
│
├── 操作 (Manipulation)
│ ├── 抓取与放置 (Pick-and-Place)
│ ├── 装配 (Assembly)
│ ├── 灵巧操作 (Dexterous Manipulation)
│ ├── 柔性物体操作 (Deformable Object Manipulation)
│ ├── 工具使用 (Tool Use)
│ └── 移动操作 (Mobile Manipulation)
│
├── 任务与运动规划 (TAMP)
│ ├── 层次化规划 (Hierarchical Planning)
│ └── 基于大语言模型的任务规划 (LLM-based Task Planning)
│
├── 语言接地 (Language Grounding)
│ ├── 具身问答 (Embodied Question Answering / EQA)
│ ├── 指令跟随 (Instruction Following)
│ └── 语言条件操作 (Language-Conditioned Manipulation)
│
└── 多智能体与社交 (Multi-Agent & Social)
├── 协作操作 (Collaborative Manipulation)
├── 人机交互 (Human-Robot Interaction)
└── 多机器人协调 (Multi-Robot Coordination)
快速对比¶
| 任务类别 | 核心挑战 | 主要传感器 | 顶级仿真器 | 关键数据集 |
|---|---|---|---|---|
| 导航 | 空间推理、探索 | RGB-D、LiDAR | Habitat、AI2-THOR、Gibson | Matterport3D、HM3D、ScanNet |
| SLAM | 定位 + 建图 | 相机、LiDAR、IMU | Gazebo、Isaac Sim | TUM RGB-D、KITTI、EuRoC |
| 操作 | 抓取、接触丰富控制 | RGB-D、触觉 | MuJoCo、Isaac、SAPIEN | YCB、DexYCB、RLBench |
| TAMP | 长程推理 | 任意 | ALFRED、Behavior-1K | Open X-Embodiment |
| 语言接地 | 视觉-语言对齐 | RGB、语言 | AI2-THOR、Habitat | R2R、REVERIE、ALFRED |
| 多智能体 | 协调、通信 | 多机器人 | Habitat 3.0、RoboCasa | SCAND、BEHAVIOR |
这些知识用在哪里?¶
理解这些任务类别对于以下方面至关重要:
- 研究方向选择:根据当前的研究空白选择要解决的问题
- 系统设计:选择合适的传感器、算法和评估指标
- 基准测试:使用标准数据集和仿真器公平比较方法
- 仿真到现实迁移:选择与目标领域匹配的仿真器
- 课程设计:为机器人学习构建循序渐进的学习路径
里程碑式综述论文¶
这些综述提供了该领域的全面概述:
- Embodied AI: A Survey of Recent Advances and Future Directions (2024) — 涵盖导航、操作和规划的广泛分类体系
- Foundations and Recent Trends in Embodied AI (2024) — 从感知到多智能体系统
- A Survey on Vision-Language Navigation (Guan et al., 2022) — 深入探讨 VLN 任务和方法
- Core Challenges of Social Robot Navigation (Mavrogiannis et al., 2022) — ACM Computing Surveys
- Open X-Embodiment (Google DeepMind, 2024) — 跨实体数据集,100万+轨迹,22种机器人
章节指南¶
| 章节 | 内容 |
|---|---|
| 导航 | PointNav、ObjectNav、VLN、探索、社交导航 |
| SLAM | 视觉 SLAM、LiDAR SLAM、数据集、评估 |
| 操作 | 抓取、装配、灵巧、柔性物体、工具使用 |
| 数据集与基准 | 所有主要数据集的综合参考 |
参考资料¶
- Anderson et al. (2018). "On Evaluation of Embodied Navigation Agents." arXiv:1807.06757
- Batra et al. (2020). "Exploring Visual Navigation using Habitat." arXiv:2004.01261
- Savva et al. (2019). "Habitat: A Platform for Embodied AI Research." ICCV 2019
- CVPR 2024 Embodied AI Workshop