数据集与基准测试参考¶

本章提供了所有机器人任务类别中使用的数据集、基准测试和模拟器的综合参考。在为研究选择评估数据时，可将此页面作为查询手册。

3D 场景数据集（导航）¶

数据集	年份	场景数	模态	标注	用途
Matterport3D	2017	90 栋建筑	RGB-D 全景	40 个语义类别	R2R VLN、Habitat
ScanNet	2017	1,513 个场景	RGB-D	语义 + 实例分割	3D 检测、重建
HM3D	2021	1,000 栋建筑	3D 网格	语义（v0.2）	Habitat ObjectNav
HSSD-200	2024	211 个场景	3D 网格	可交互物体	Habitat 整理任务
Gibson	2018	572 栋建筑	3D 重建	—	Gibson 模拟器
3DSSG	2020	478 个场景	RGB-D	场景图标签	场景理解
ProcTHOR	2022	10,000 个房间	程序化生成	物体布局	大规模训练
ARKitScenes	2021	1,000+ 个房间	iPhone LiDAR	3D 边界框	真实世界 SLAM

Matterport3D 详情¶

Matterport3D:
├── 10,800 张全景 RGB-D 图像
├── 90 栋建筑（住宅、公寓）
├── 40 个语义类别（墙壁、地板、椅子、桌子……）
├── 每栋建筑的 3D 网格重建
├── 用途：
│   ├── R2R 视觉语言导航（21K 条指令）
│   ├── 主动视觉任务
│   ├── 语义 SLAM
│   └── PointNav / ObjectNav 基准测试
└── 许可：仅限研究使用

HM3D 详情¶

HM3D（Habitat-Matterport 3D 数据集）：
├── 1,000 个建筑规模的 3D 场景
├── 同类数据集中规模最大
├── 语义标注（v0.2）：家具、固定装置、物体
├── 用于 Habitat 挑战赛 2022–2024
├── 涵盖：ObjectNav、PointNav、探索
└── 许可：研究使用（通过 Habitat）

导航数据集（VLN）¶

数据集	年份	指令数	场景	语言	任务
R2R	2018	21,567	MP3D	英语	VLN
RxR	2020	126,000+	MP3D	英/印/泰	多语言 VLN
REVERIE	2020	21,702	MP3D	英语	远程指代
SOON	2021	4,000+	MP3D	英语	环境变化
CVDN	2020	7,441 条对话	MP3D	英语	基于对话
ALFRED	2020	25,743	AI2-THOR	英语	VLN + 操作
TEACh	2022	3,500+	AI2-THOR	英语	对话 + 任务执行
SCAND	2024	真实世界	室内	英语	社交导航

SLAM 数据集¶

室内 SLAM¶

数据集	年份	传感器	序列数	真值	主要用途
TUM RGB-D	2012	Kinect	39	动作捕捉	RGB-D SLAM 标准
EuRoC MAV	2016	双目 + IMU	11	动作捕捉	视觉惯性 SLAM
ICL-NUIM	2014	合成	8	完美	仿真基准
TartanAir	2020	合成	30+	完美	多样化环境
Replica	2019	合成	18	完美	神经 SLAM
ScanNet	2017	RGB-D	1513	ICP 对齐	语义 SLAM

室外 SLAM¶

数据集	年份	传感器	序列数	真值	主要用途
KITTI	2012	双目 + LiDAR	22+11	GPS/RTK	视觉/LiDAR 里程计
nuScenes	2019	LiDAR + 相机	1,000	GPS/IMU	3D 检测 + 跟踪
Waymo Open	2019	LiDAR + 相机	1,150	GPS/IMU	3D 检测
Oxford RobotCar	2016	多传感器	100+	GPS	长期 SLAM
MulRan	2020	LiDAR	12	GPS	多次会话 SLAM
Hilti	2022	多传感器	9	全站仪	建筑施工 SLAM
NCLT	2016	多传感器	27	GPS	长期定位

TUM RGB-D 序列¶

最常用的 TUM RGB-D 序列：

fr1_xyz      — 简单平移（30秒，小工作空间）
fr1_desk     — 桌面物体（23秒）
fr1_floor    — 地面扫描（28秒）
fr1_room     — 完整房间遍历（66秒）
fr2_xyz      — 较大工作空间（122秒）
fr2_desk     — 办公桌（99秒）
fr2_360      — 360° 旋转（28秒）
fr2_rpy      — 横滚/俯仰/偏航运动（29秒）
fr3_office   — 完整办公室（30秒）
fr3_nstr     — 噪声纹理（27秒）

评估：使用 'associate.py' 对齐时间戳

操作物体数据集¶

数据集	年份	物体数	模态	核心特点
YCB	2015	77（5 个类别）	3D 模型 + 实物	行业标准
DexYCB	2021	10 个 YCB 物体	RGB-D + 手部跟踪	灵巧抓取
Google Scanned Objects	2020	1,031	3D 扫描	仿真素材
OmniObject3D	2023	6,000+	3D 扫描 + 纹理	最大 3D 物体集
ObjectNet	2019	313 个类别	RGB	鲁棒性测试
ACID	2022	1,000+	3D 模型	关节物体
OakInk	2022	1,800+	RGB-D + 手部	手物交互

YCB 物体类别¶

YCB 基准测试（5 个类别共 77 个物体）：

1. 食品类（20 个物体）
   ├── 罐头食品（番茄汤、金枪鱼等）
   ├── 新鲜农产品（苹果、香蕉、桃子、梨、草莓）
   └── 包装食品（饼干盒、糖盒等）

2. 厨房用品类（17 个物体）
   ├── 餐具（锅铲、勺子、叉子、刀）
   ├── 容器（马克碗、碗、盘子、杯子）
   └── 器皿（水壶、马克杯等）

3. 工具类（19 个物体）
   ├── 手动工具（扳手、钳子、螺丝刀、锤子）
   ├── 测量工具（卷尺）
   └── 夹具与支架

4. 形状与尺寸类（16 个物体）
   ├── 方块（各种尺寸）
   ├── 球体（各种尺寸）
   ├── 圆柱（各种尺寸）
   └── 标准化标定形状

5. 任务类（5 个物体）
   └── 用于操作任务的多部件组装体

操作基准测试¶

基准测试	年份	任务数	机器人	环境	核心特点
RLBench	2020	100	Franka Panda	仿真	多样化、语言条件化
Meta-World	2019	50	Sawyer	仿真	多任务强化学习
LIBERO	2024	130	Franka Panda	仿真	4 个难度级别
RoboSuite	2021	8+	多种	仿真	模块化
Calvin	2022	34	Franka	仿真	长时域
BEHAVIOR-1K	2023	1000	多种	OmniGibson	完整家务场景
RoboCasa	2024	100+	移动操作	仿真	厨房任务
ManiSkill2	2023	20	多种	SAPIEN	关节物体
SAPIEN	2020	多种	—	仿真	部件级关节

跨本体数据集¶

数据集	年份	轨迹数	机器人	任务数	核心特点
Open X-Embodiment	2024	1M+	22	500+	跨本体
Bridge V2	2023	60K	WidowX	10+	真实机器人
RoboSet	2023	100K+	Franka	11	多任务
RoboTurk	2018	2,152	Sawyer	6	众包
DROID	2024	350K	多种	—	自然环境

Open X-Embodiment¶

Open X-Embodiment（Google DeepMind, 2024）：
├── 来自 22 种机器人本体的 1M+ 条轨迹
├── 500+ 种不同任务
├── 标准化格式（RLDS）
├── 训练的 RT-X 模型：
│   ├── RT-1-X：在未见过的机器人上提升 50%
│   └── RT-2-X：更好的泛化能力
├── 来自 21 个机构的贡献
└── 论文：Brohan et al., ICRA 2024

模拟器¶

模拟器	开发者	物理引擎	渲染引擎	主要用途	GPU 加速
Habitat	Meta	Bullet	自定义	导航	✅
AI2-THOR	Allen AI	Unity	Unity	导航 + 操作	✅
MuJoCo	DeepMind	MuJoCo	EGL	操作	✅
Isaac Sim	NVIDIA	PhysX 5	RTX	所有任务	✅
SAPIEN	UCSD	PhysX	自定义	关节物体	✅
RoboSuite	Stanford	MuJoCo	EGL	操作	✅
Gazebo	OSRF	ODE/Bullet	OGRE	ROS 集成	❌
PyBullet	—	Bullet	OpenGL	快速原型	❌
CARLA	Intel	Unreal	Unreal	驾驶/室外	✅
OmniGibson	Stanford	PhysX	Omniverse	完整家务	✅

模拟器选择指南¶

我该用哪个模拟器？

导航任务 → Habitat（最快，最大场景）
  └── 需要交互？→ AI2-THOR / iGibson

操作任务 → MuJoCo（快速、精确）
  └── 需要关节物体？→ SAPIEN
  └── 需要 GPU 并行？→ Isaac Sim / Isaac Gym

ROS 集成 → Gazebo（原生 ROS 支持）

快速原型 → PyBullet（易于安装、速度快）

完整家务 → OmniGibson / BEHAVIOR-1K

室外驾驶 → CARLA

多任务研究 → Isaac Sim（最通用）

选择流程图¶

开始：你要评估什么任务？
│
├── 导航
│   ├── PointNav → HM3D + Habitat
│   ├── ObjectNav → HM3D + Habitat
│   ├── VLN → Matterport3D + R2R/RxR
│   ├── 探索 → HM3D 或自定义
│   └── 社交 → SCAND + Habitat 3.0
│
├── SLAM
│   ├── 视觉 SLAM（室内）→ TUM RGB-D、EuRoC
│   ├── 视觉 SLAM（室外）→ KITTI
│   ├── LiDAR SLAM → KITTI、MulRan、Hilti
│   └── 神经 SLAM → Replica、ScanNet、TartanAir
│
├── 操作
│   ├── 抓取放置 → RLBench、LIBERO
│   ├── 灵巧操作 → DexYCB、Adroit
│   ├── 装配 → 插孔任务、RLBench
│   ├── 柔性物体 → SoftGym
│   └── 移动操作 → BEHAVIOR-1K、RoboCasa
│
└── 跨任务
    ├── 基础模型 → Open X-Embodiment
    └── 多任务 → BEHAVIOR-1K、RoboBench

参考资料¶

Chang et al. (2017). "Matterport3D: Learning from RGB-D Data in Indoor Environments." 3DV 2017
Dai et al. (2017). "ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes." CVPR 2017
Ramakrishnan et al. (2021). "Habitat-Matterport 3D Dataset (HM3D)." 3DV 2021
Anderson et al. (2018). "Vision-and-Language Navigation." CVPR 2018
Calli et al. (2015). "The YCB Object and Model Set." ICRA 2015
Chao et al. (2021). "DexYCB: A Benchmark for Capturing Hand Grasping of Objects." CVPR 2021
Brohan et al. (2024). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models." ICRA 2024
Sturm et al. (2012). "A Benchmark for the Evaluation of RGB-D SLAM Systems." IROS 2012
Geiger et al. (2012). "Are we ready for autonomous driving? The KITTI vision benchmark suite." CVPR 2012
James et al. (2020). "RLBench: The Robot Learning Benchmark." IEEE RA-L
Yu et al. (2020). "SAPIEN: A SimulAted Parted Interactive ENvironment." CVPR 2020

数据集与基准测试参考¶

3D 场景数据集（导航）¶

Matterport3D 详情¶

HM3D 详情¶

导航数据集（VLN）¶

SLAM 数据集¶

室内 SLAM¶

室外 SLAM¶

TUM RGB-D 序列¶

操作物体数据集¶

YCB 物体类别¶

操作基准测试¶

跨本体数据集¶

Open X-Embodiment¶

模拟器¶

模拟器选择指南¶

选择流程图¶

参考资料¶

Robotics Course Docs

学习路径

实践模块

社区