跳转至

机器人任务:从导航到操作

机器人领域涵盖了广泛的任务类型,每种任务都有其独特的目标、评估指标和前沿方法。本模块系统介绍现代机器人研究中的主要任务类别,重点说明**每种任务需要什么能力**、如何进行基准测试、以及**这些知识应用在何处**。

任务分类体系

机器人任务
├── 导航 (Navigation)
│   ├── 点目标导航 (Point-Goal Navigation / PointNav)
│   ├── 物体目标导航 (Object-Goal Navigation / ObjectNav)
│   ├── 视觉语言导航 (Vision-Language Navigation / VLN)
│   ├── 探索 / 主动建图 (Exploration / Active Mapping)
│   ├── 社交导航 (Social Navigation)
│   └── 同时定位与建图 (SLAM,见专门章节)
├── 操作 (Manipulation)
│   ├── 抓取与放置 (Pick-and-Place)
│   ├── 装配 (Assembly)
│   ├── 灵巧操作 (Dexterous Manipulation)
│   ├── 柔性物体操作 (Deformable Object Manipulation)
│   ├── 工具使用 (Tool Use)
│   └── 移动操作 (Mobile Manipulation)
├── 任务与运动规划 (TAMP)
│   ├── 层次化规划 (Hierarchical Planning)
│   └── 基于大语言模型的任务规划 (LLM-based Task Planning)
├── 语言接地 (Language Grounding)
│   ├── 具身问答 (Embodied Question Answering / EQA)
│   ├── 指令跟随 (Instruction Following)
│   └── 语言条件操作 (Language-Conditioned Manipulation)
└── 多智能体与社交 (Multi-Agent & Social)
    ├── 协作操作 (Collaborative Manipulation)
    ├── 人机交互 (Human-Robot Interaction)
    └── 多机器人协调 (Multi-Robot Coordination)

快速对比

任务类别 核心挑战 主要传感器 顶级仿真器 关键数据集
导航 空间推理、探索 RGB-D、LiDAR Habitat、AI2-THOR、Gibson Matterport3D、HM3D、ScanNet
SLAM 定位 + 建图 相机、LiDAR、IMU Gazebo、Isaac Sim TUM RGB-D、KITTI、EuRoC
操作 抓取、接触丰富控制 RGB-D、触觉 MuJoCo、Isaac、SAPIEN YCB、DexYCB、RLBench
TAMP 长程推理 任意 ALFRED、Behavior-1K Open X-Embodiment
语言接地 视觉-语言对齐 RGB、语言 AI2-THOR、Habitat R2R、REVERIE、ALFRED
多智能体 协调、通信 多机器人 Habitat 3.0、RoboCasa SCAND、BEHAVIOR

这些知识用在哪里?

理解这些任务类别对于以下方面至关重要:

  1. 研究方向选择:根据当前的研究空白选择要解决的问题
  2. 系统设计:选择合适的传感器、算法和评估指标
  3. 基准测试:使用标准数据集和仿真器公平比较方法
  4. 仿真到现实迁移:选择与目标领域匹配的仿真器
  5. 课程设计:为机器人学习构建循序渐进的学习路径

里程碑式综述论文

这些综述提供了该领域的全面概述:

  • Embodied AI: A Survey of Recent Advances and Future Directions (2024) — 涵盖导航、操作和规划的广泛分类体系
  • Foundations and Recent Trends in Embodied AI (2024) — 从感知到多智能体系统
  • A Survey on Vision-Language Navigation (Guan et al., 2022) — 深入探讨 VLN 任务和方法
  • Core Challenges of Social Robot Navigation (Mavrogiannis et al., 2022) — ACM Computing Surveys
  • Open X-Embodiment (Google DeepMind, 2024) — 跨实体数据集,100万+轨迹,22种机器人

章节指南

章节 内容
导航 PointNav、ObjectNav、VLN、探索、社交导航
SLAM 视觉 SLAM、LiDAR SLAM、数据集、评估
操作 抓取、装配、灵巧、柔性物体、工具使用
数据集与基准 所有主要数据集的综合参考

参考资料

  • Anderson et al. (2018). "On Evaluation of Embodied Navigation Agents." arXiv:1807.06757
  • Batra et al. (2020). "Exploring Visual Navigation using Habitat." arXiv:2004.01261
  • Savva et al. (2019). "Habitat: A Platform for Embodied AI Research." ICCV 2019
  • CVPR 2024 Embodied AI Workshop