机器人导航¶

导航是任何移动机器人最基础的能力——从一个位置移动到另一个位置，同时避开障碍物并高效到达目标。现代导航研究远不止简单的路径规划，它涵盖了语义理解、语言接地和社交感知。

1. 点目标导航 (PointNav)¶

任务定义¶

给定相对于智能体起始位置的目标坐标 \((x, y, z)\)，导航到该位置。不需要语义理解——智能体只知道"向前走 5 米，向左走 3 米"。

形式化定义¶

输入:  智能体当前位姿（位置 + 朝向）
       目标: 相对坐标 (Δx, Δy, Δz)
输出:  动作序列（前进、左转、右转、停止）
指标:  成功率 (SR)、按路径长度加权的成功率 (SPL)

为什么重要¶

PointNav 是最简单的导航任务，但它测试了基本能力：

空间推理：从自我中心观察理解 3D 空间
避障：检测和绕过障碍物
路径效率：找到短路径，而不仅是任意路径
泛化能力：在未见过的环境中工作

关键基准¶

基准	年份	环境	核心特性
Habitat PointNav Challenge	2019至今	Habitat (HM3D, MP3D)	年度竞赛，照片级真实
Gibson PointNav	2018	Gibson	真实世界扫描环境
RoboTHOR PointNav	2020	AI2-THOR	仿真到现实迁移

数据集¶

Matterport3D: 10,800 张全景 RGB-D 图像，90 栋建筑，40 个语义类别
HM3D: 1,000 个建筑级 3D 场景（PointNav 最大数据集）
Gibson: 572 栋真实世界扫描建筑

应用场景¶

仓库机器人导航到货架位置
送餐机器人移动到送餐点
无人机导航到 GPS 坐标

前沿探索演示¶

前沿探索动画

2. 物体目标导航 (ObjectNav)¶

任务定义¶

给定一个语义类别（如"找到冰箱"），导航到该物体的一个实例，不给定坐标。智能体必须理解物体的样子以及它们通常在哪里被找到。

为什么比 PointNav 更难¶

PointNav	ObjectNav
知道确切目标位置	必须搜索目标
不需要语义理解	必须识别物体类别
可以直接规划路径	必须探索 + 识别
纯空间推理	空间 + 语义推理

关键基准¶

基准	年份	场景数	物体类别	核心特性
Habitat ObjectNav Challenge	2021至今	HM3D (1000)	6 类	年度竞赛
RoboTHOR ObjectNav	2020	75 个房间	19 类	仿真到现实
ProcTHOR ObjectNav	2022	10,000 个房间	50+ 类	程序化生成

典型流水线¶

观察 → 物体检测器 → 语义地图 → 前沿探索器 → 策略
(RGB-D)  (YOLO / SAM)    (2D 网格)    (探索未知       (深度强化学习)
                                         前沿区域)

应用场景¶

家庭机器人："把厨房里的杯子拿来"
服务机器人："找到最近的出口"
搜救机器人："定位受伤人员"

3. 视觉语言导航 (VLN)¶

任务定义¶

遵循自然语言指令在环境中导航。与 PointNav/ObjectNav 不同，目标用人类语言描述，要求智能体将语言与视觉观察对应起来。

指令示例¶

R2R 数据集：
"走过钢琴旁边然后右转。沿着走廊走，进入左边第二个门。"

REVERIE 数据集：
"去厨房桌子上放着的杯子那里。"

RxR 数据集（多语言）：
"Walk past the piano and turn right. Go down the hallway 
 and enter the second door on your left."

关键数据集¶

数据集	年份	指令数	场景	语言	核心特性
R2R	2018	21,567	90 (MP3D)	英文	首个 VLN 基准
RxR	2020	126,000+	90 (MP3D)	中/英/印地语	多语言、密集接地
REVERIE	2020	21,702	90 (MP3D)	英文	远程指代表达
ALFRED	2020	25,743	120 (THOR)	英文	导航 + 操作

评估指标¶

指标	定义
SR (成功率)	在目标 3m 内停止的 episode 百分比
SPL (按路径长度加权的成功率)	SR × (最短路径 / 实际路径)
NE (导航误差)	智能体到目标的平均距离

应用场景¶

家庭助手："去卧室把我的眼镜拿来"
酒店服务机器人："把这个送到 305 号房"
博物馆导览："带游客去看莫奈展览"

4. 探索 / 主动建图¶

任务定义¶

自主探索未知环境以构建完整地图或最大化覆盖率。与目标导向导航不同，没有特定目标——目标是尽可能全面高效地理解环境。

探索策略¶

1. 前沿探索（经典方法）
   移动到已知与未知空间边界的前沿 → 观察 → 更新地图 → 重复

2. 学习型探索（现代方法）
   使用强化学习学习最大化覆盖率的策略
   输入：当前地图 + 已访问区域
   输出：下一个要访问的路点

应用场景¶

搜救：探索倒塌建筑
太空探索：绘制未知行星表面
家庭机器人：首次部署时绘制新公寓地图

5. 社交导航¶

任务定义¶

在有其他智能体或人类的环境中导航，遵守社交规范，如个人空间、避让、让路等。

关键数据集¶

数据集	年份	场景	核心特性
SCAND	2024	室内真实世界	社交合规导航示范
Habitat 3.0	2024	仿真	人在回路社交导航

应用场景¶

医院机器人：在拥挤走廊中导航
机场引导机器人：穿过繁忙的航站楼
餐厅送餐机器人：在餐桌间穿行

导航任务对比¶

任务	目标指定方式	核心挑战	典型方法	典型 SR
PointNav	相对坐标	空间推理	RL + 地图	~95%
ObjectNav	物体类别	语义搜索	RL + 检测	~55%
VLN	语言指令	语言接地	Transformer	~60%
探索	无（最大化覆盖）	高效覆盖	前沿 + RL	~90% 覆盖
社交导航	目标 + 社交规范	人类预测	预测性规划	N/A

参考资料¶

Anderson et al. (2018). "On Evaluation of Embodied Navigation Agents." arXiv:1807.06757
Batra et al. (2020). "Exploring Visual Navigation using Habitat." arXiv:2004.01261
Anderson et al. (2018). "Vision-and-Language Navigation." CVPR 2018
Chaplot et al. (2020). "Learning to Explore using Active Neural SLAM." ICLR 2020
Mavrogiannis et al. (2022). "Core Challenges of Social Robot Navigation." ACM Computing Surveys
Guan et al. (2022). "A Survey on Vision-Language Navigation." arXiv:2211.11697
Xia et al. (2024). "Navigation in the Era of Foundation Models." arXiv:2402.19300

机器人导航¶

1. 点目标导航 (PointNav)¶

任务定义¶

形式化定义¶

为什么重要¶

关键基准¶

数据集¶

应用场景¶

前沿探索演示¶

2. 物体目标导航 (ObjectNav)¶

任务定义¶

为什么比 PointNav 更难¶

关键基准¶

典型流水线¶

应用场景¶

3. 视觉语言导航 (VLN)¶

任务定义¶

指令示例¶

关键数据集¶

评估指标¶

应用场景¶

4. 探索 / 主动建图¶

任务定义¶

探索策略¶

应用场景¶

5. 社交导航¶

任务定义¶

关键数据集¶

应用场景¶

导航任务对比¶

参考资料¶

Robotics Course Docs

学习路径

实践模块

社区