跳转至

机器人导航

导航是任何移动机器人最基础的能力——从一个位置移动到另一个位置,同时避开障碍物并高效到达目标。现代导航研究远不止简单的路径规划,它涵盖了语义理解、语言接地和社交感知。

1. 点目标导航 (PointNav)

任务定义

给定相对于智能体起始位置的目标坐标 \((x, y, z)\),导航到该位置。不需要语义理解——智能体只知道"向前走 5 米,向左走 3 米"。

形式化定义

输入:  智能体当前位姿(位置 + 朝向)
       目标: 相对坐标 (Δx, Δy, Δz)
输出:  动作序列(前进、左转、右转、停止)
指标:  成功率 (SR)、按路径长度加权的成功率 (SPL)

为什么重要

PointNav 是最简单的导航任务,但它测试了基本能力:

  • 空间推理:从自我中心观察理解 3D 空间
  • 避障:检测和绕过障碍物
  • 路径效率:找到短路径,而不仅是任意路径
  • 泛化能力:在未见过的环境中工作

关键基准

基准 年份 环境 核心特性
Habitat PointNav Challenge 2019至今 Habitat (HM3D, MP3D) 年度竞赛,照片级真实
Gibson PointNav 2018 Gibson 真实世界扫描环境
RoboTHOR PointNav 2020 AI2-THOR 仿真到现实迁移

数据集

  • Matterport3D: 10,800 张全景 RGB-D 图像,90 栋建筑,40 个语义类别
  • HM3D: 1,000 个建筑级 3D 场景(PointNav 最大数据集)
  • Gibson: 572 栋真实世界扫描建筑

应用场景

  • 仓库机器人导航到货架位置
  • 送餐机器人移动到送餐点
  • 无人机导航到 GPS 坐标

前沿探索演示

前沿探索动画


2. 物体目标导航 (ObjectNav)

任务定义

给定一个语义类别(如"找到冰箱"),导航到该物体的一个实例,不给定坐标。智能体必须理解物体的样子以及它们通常在哪里被找到。

为什么比 PointNav 更难

PointNav ObjectNav
知道确切目标位置 必须搜索目标
不需要语义理解 必须识别物体类别
可以直接规划路径 必须探索 + 识别
纯空间推理 空间 + 语义推理

关键基准

基准 年份 场景数 物体类别 核心特性
Habitat ObjectNav Challenge 2021至今 HM3D (1000) 6 类 年度竞赛
RoboTHOR ObjectNav 2020 75 个房间 19 类 仿真到现实
ProcTHOR ObjectNav 2022 10,000 个房间 50+ 类 程序化生成

典型流水线

观察 → 物体检测器 → 语义地图 → 前沿探索器 → 策略
(RGB-D)  (YOLO / SAM)    (2D 网格)    (探索未知       (深度强化学习)
                                         前沿区域)

应用场景

  • 家庭机器人:"把厨房里的杯子拿来"
  • 服务机器人:"找到最近的出口"
  • 搜救机器人:"定位受伤人员"

3. 视觉语言导航 (VLN)

任务定义

遵循自然语言指令在环境中导航。与 PointNav/ObjectNav 不同,目标用人类语言描述,要求智能体将语言与视觉观察对应起来。

指令示例

R2R 数据集:
"走过钢琴旁边然后右转。沿着走廊走,进入左边第二个门。"

REVERIE 数据集:
"去厨房桌子上放着的杯子那里。"

RxR 数据集(多语言):
"Walk past the piano and turn right. Go down the hallway 
 and enter the second door on your left."

关键数据集

数据集 年份 指令数 场景 语言 核心特性
R2R 2018 21,567 90 (MP3D) 英文 首个 VLN 基准
RxR 2020 126,000+ 90 (MP3D) 中/英/印地语 多语言、密集接地
REVERIE 2020 21,702 90 (MP3D) 英文 远程指代表达
ALFRED 2020 25,743 120 (THOR) 英文 导航 + 操作

评估指标

指标 定义
SR (成功率) 在目标 3m 内停止的 episode 百分比
SPL (按路径长度加权的成功率) SR × (最短路径 / 实际路径)
NE (导航误差) 智能体到目标的平均距离

应用场景

  • 家庭助手:"去卧室把我的眼镜拿来"
  • 酒店服务机器人:"把这个送到 305 号房"
  • 博物馆导览:"带游客去看莫奈展览"

4. 探索 / 主动建图

任务定义

自主探索未知环境以构建完整地图或最大化覆盖率。与目标导向导航不同,没有特定目标——目标是尽可能全面高效地理解环境。

探索策略

1. 前沿探索(经典方法)
   移动到已知与未知空间边界的前沿 → 观察 → 更新地图 → 重复

2. 学习型探索(现代方法)
   使用强化学习学习最大化覆盖率的策略
   输入:当前地图 + 已访问区域
   输出:下一个要访问的路点

应用场景

  • 搜救:探索倒塌建筑
  • 太空探索:绘制未知行星表面
  • 家庭机器人:首次部署时绘制新公寓地图

5. 社交导航

任务定义

在有其他智能体或人类的环境中导航,遵守社交规范,如个人空间、避让、让路等。

关键数据集

数据集 年份 场景 核心特性
SCAND 2024 室内真实世界 社交合规导航示范
Habitat 3.0 2024 仿真 人在回路社交导航

应用场景

  • 医院机器人:在拥挤走廊中导航
  • 机场引导机器人:穿过繁忙的航站楼
  • 餐厅送餐机器人:在餐桌间穿行

导航任务对比

任务 目标指定方式 核心挑战 典型方法 典型 SR
PointNav 相对坐标 空间推理 RL + 地图 ~95%
ObjectNav 物体类别 语义搜索 RL + 检测 ~55%
VLN 语言指令 语言接地 Transformer ~60%
探索 无(最大化覆盖) 高效覆盖 前沿 + RL ~90% 覆盖
社交导航 目标 + 社交规范 人类预测 预测性规划 N/A

参考资料

  • Anderson et al. (2018). "On Evaluation of Embodied Navigation Agents." arXiv:1807.06757
  • Batra et al. (2020). "Exploring Visual Navigation using Habitat." arXiv:2004.01261
  • Anderson et al. (2018). "Vision-and-Language Navigation." CVPR 2018
  • Chaplot et al. (2020). "Learning to Explore using Active Neural SLAM." ICLR 2020
  • Mavrogiannis et al. (2022). "Core Challenges of Social Robot Navigation." ACM Computing Surveys
  • Guan et al. (2022). "A Survey on Vision-Language Navigation." arXiv:2211.11697
  • Xia et al. (2024). "Navigation in the Era of Foundation Models." arXiv:2402.19300