机器人导航¶
导航是任何移动机器人最基础的能力——从一个位置移动到另一个位置,同时避开障碍物并高效到达目标。现代导航研究远不止简单的路径规划,它涵盖了语义理解、语言接地和社交感知。
1. 点目标导航 (PointNav)¶
任务定义¶
给定相对于智能体起始位置的目标坐标 \((x, y, z)\),导航到该位置。不需要语义理解——智能体只知道"向前走 5 米,向左走 3 米"。
形式化定义¶
为什么重要¶
PointNav 是最简单的导航任务,但它测试了基本能力:
- 空间推理:从自我中心观察理解 3D 空间
- 避障:检测和绕过障碍物
- 路径效率:找到短路径,而不仅是任意路径
- 泛化能力:在未见过的环境中工作
关键基准¶
| 基准 | 年份 | 环境 | 核心特性 |
|---|---|---|---|
| Habitat PointNav Challenge | 2019至今 | Habitat (HM3D, MP3D) | 年度竞赛,照片级真实 |
| Gibson PointNav | 2018 | Gibson | 真实世界扫描环境 |
| RoboTHOR PointNav | 2020 | AI2-THOR | 仿真到现实迁移 |
数据集¶
- Matterport3D: 10,800 张全景 RGB-D 图像,90 栋建筑,40 个语义类别
- HM3D: 1,000 个建筑级 3D 场景(PointNav 最大数据集)
- Gibson: 572 栋真实世界扫描建筑
应用场景¶
- 仓库机器人导航到货架位置
- 送餐机器人移动到送餐点
- 无人机导航到 GPS 坐标
前沿探索演示¶

2. 物体目标导航 (ObjectNav)¶
任务定义¶
给定一个语义类别(如"找到冰箱"),导航到该物体的一个实例,不给定坐标。智能体必须理解物体的样子以及它们通常在哪里被找到。
为什么比 PointNav 更难¶
| PointNav | ObjectNav |
|---|---|
| 知道确切目标位置 | 必须搜索目标 |
| 不需要语义理解 | 必须识别物体类别 |
| 可以直接规划路径 | 必须探索 + 识别 |
| 纯空间推理 | 空间 + 语义推理 |
关键基准¶
| 基准 | 年份 | 场景数 | 物体类别 | 核心特性 |
|---|---|---|---|---|
| Habitat ObjectNav Challenge | 2021至今 | HM3D (1000) | 6 类 | 年度竞赛 |
| RoboTHOR ObjectNav | 2020 | 75 个房间 | 19 类 | 仿真到现实 |
| ProcTHOR ObjectNav | 2022 | 10,000 个房间 | 50+ 类 | 程序化生成 |
典型流水线¶
应用场景¶
- 家庭机器人:"把厨房里的杯子拿来"
- 服务机器人:"找到最近的出口"
- 搜救机器人:"定位受伤人员"
3. 视觉语言导航 (VLN)¶
任务定义¶
遵循自然语言指令在环境中导航。与 PointNav/ObjectNav 不同,目标用人类语言描述,要求智能体将语言与视觉观察对应起来。
指令示例¶
R2R 数据集:
"走过钢琴旁边然后右转。沿着走廊走,进入左边第二个门。"
REVERIE 数据集:
"去厨房桌子上放着的杯子那里。"
RxR 数据集(多语言):
"Walk past the piano and turn right. Go down the hallway
and enter the second door on your left."
关键数据集¶
| 数据集 | 年份 | 指令数 | 场景 | 语言 | 核心特性 |
|---|---|---|---|---|---|
| R2R | 2018 | 21,567 | 90 (MP3D) | 英文 | 首个 VLN 基准 |
| RxR | 2020 | 126,000+ | 90 (MP3D) | 中/英/印地语 | 多语言、密集接地 |
| REVERIE | 2020 | 21,702 | 90 (MP3D) | 英文 | 远程指代表达 |
| ALFRED | 2020 | 25,743 | 120 (THOR) | 英文 | 导航 + 操作 |
评估指标¶
| 指标 | 定义 |
|---|---|
| SR (成功率) | 在目标 3m 内停止的 episode 百分比 |
| SPL (按路径长度加权的成功率) | SR × (最短路径 / 实际路径) |
| NE (导航误差) | 智能体到目标的平均距离 |
应用场景¶
- 家庭助手:"去卧室把我的眼镜拿来"
- 酒店服务机器人:"把这个送到 305 号房"
- 博物馆导览:"带游客去看莫奈展览"
4. 探索 / 主动建图¶
任务定义¶
自主探索未知环境以构建完整地图或最大化覆盖率。与目标导向导航不同,没有特定目标——目标是尽可能全面高效地理解环境。
探索策略¶
1. 前沿探索(经典方法)
移动到已知与未知空间边界的前沿 → 观察 → 更新地图 → 重复
2. 学习型探索(现代方法)
使用强化学习学习最大化覆盖率的策略
输入:当前地图 + 已访问区域
输出:下一个要访问的路点
应用场景¶
- 搜救:探索倒塌建筑
- 太空探索:绘制未知行星表面
- 家庭机器人:首次部署时绘制新公寓地图
5. 社交导航¶
任务定义¶
在有其他智能体或人类的环境中导航,遵守社交规范,如个人空间、避让、让路等。
关键数据集¶
| 数据集 | 年份 | 场景 | 核心特性 |
|---|---|---|---|
| SCAND | 2024 | 室内真实世界 | 社交合规导航示范 |
| Habitat 3.0 | 2024 | 仿真 | 人在回路社交导航 |
应用场景¶
- 医院机器人:在拥挤走廊中导航
- 机场引导机器人:穿过繁忙的航站楼
- 餐厅送餐机器人:在餐桌间穿行
导航任务对比¶
| 任务 | 目标指定方式 | 核心挑战 | 典型方法 | 典型 SR |
|---|---|---|---|---|
| PointNav | 相对坐标 | 空间推理 | RL + 地图 | ~95% |
| ObjectNav | 物体类别 | 语义搜索 | RL + 检测 | ~55% |
| VLN | 语言指令 | 语言接地 | Transformer | ~60% |
| 探索 | 无(最大化覆盖) | 高效覆盖 | 前沿 + RL | ~90% 覆盖 |
| 社交导航 | 目标 + 社交规范 | 人类预测 | 预测性规划 | N/A |
参考资料¶
- Anderson et al. (2018). "On Evaluation of Embodied Navigation Agents." arXiv:1807.06757
- Batra et al. (2020). "Exploring Visual Navigation using Habitat." arXiv:2004.01261
- Anderson et al. (2018). "Vision-and-Language Navigation." CVPR 2018
- Chaplot et al. (2020). "Learning to Explore using Active Neural SLAM." ICLR 2020
- Mavrogiannis et al. (2022). "Core Challenges of Social Robot Navigation." ACM Computing Surveys
- Guan et al. (2022). "A Survey on Vision-Language Navigation." arXiv:2211.11697
- Xia et al. (2024). "Navigation in the Era of Foundation Models." arXiv:2402.19300