跳转至

数据集与基准测试参考

本章提供了所有机器人任务类别中使用的数据集、基准测试和模拟器的综合参考。在为研究选择评估数据时,可将此页面作为查询手册。

3D 场景数据集(导航)

数据集 年份 场景数 模态 标注 用途
Matterport3D 2017 90 栋建筑 RGB-D 全景 40 个语义类别 R2R VLN、Habitat
ScanNet 2017 1,513 个场景 RGB-D 语义 + 实例分割 3D 检测、重建
HM3D 2021 1,000 栋建筑 3D 网格 语义(v0.2) Habitat ObjectNav
HSSD-200 2024 211 个场景 3D 网格 可交互物体 Habitat 整理任务
Gibson 2018 572 栋建筑 3D 重建 Gibson 模拟器
3DSSG 2020 478 个场景 RGB-D 场景图标签 场景理解
ProcTHOR 2022 10,000 个房间 程序化生成 物体布局 大规模训练
ARKitScenes 2021 1,000+ 个房间 iPhone LiDAR 3D 边界框 真实世界 SLAM

Matterport3D 详情

Matterport3D:
├── 10,800 张全景 RGB-D 图像
├── 90 栋建筑(住宅、公寓)
├── 40 个语义类别(墙壁、地板、椅子、桌子……)
├── 每栋建筑的 3D 网格重建
├── 用途:
│   ├── R2R 视觉语言导航(21K 条指令)
│   ├── 主动视觉任务
│   ├── 语义 SLAM
│   └── PointNav / ObjectNav 基准测试
└── 许可:仅限研究使用

HM3D 详情

HM3D(Habitat-Matterport 3D 数据集):
├── 1,000 个建筑规模的 3D 场景
├── 同类数据集中规模最大
├── 语义标注(v0.2):家具、固定装置、物体
├── 用于 Habitat 挑战赛 2022–2024
├── 涵盖:ObjectNav、PointNav、探索
└── 许可:研究使用(通过 Habitat)

导航数据集(VLN)

数据集 年份 指令数 场景 语言 任务
R2R 2018 21,567 MP3D 英语 VLN
RxR 2020 126,000+ MP3D 英/印/泰 多语言 VLN
REVERIE 2020 21,702 MP3D 英语 远程指代
SOON 2021 4,000+ MP3D 英语 环境变化
CVDN 2020 7,441 条对话 MP3D 英语 基于对话
ALFRED 2020 25,743 AI2-THOR 英语 VLN + 操作
TEACh 2022 3,500+ AI2-THOR 英语 对话 + 任务执行
SCAND 2024 真实世界 室内 英语 社交导航

SLAM 数据集

室内 SLAM

数据集 年份 传感器 序列数 真值 主要用途
TUM RGB-D 2012 Kinect 39 动作捕捉 RGB-D SLAM 标准
EuRoC MAV 2016 双目 + IMU 11 动作捕捉 视觉惯性 SLAM
ICL-NUIM 2014 合成 8 完美 仿真基准
TartanAir 2020 合成 30+ 完美 多样化环境
Replica 2019 合成 18 完美 神经 SLAM
ScanNet 2017 RGB-D 1513 ICP 对齐 语义 SLAM

室外 SLAM

数据集 年份 传感器 序列数 真值 主要用途
KITTI 2012 双目 + LiDAR 22+11 GPS/RTK 视觉/LiDAR 里程计
nuScenes 2019 LiDAR + 相机 1,000 GPS/IMU 3D 检测 + 跟踪
Waymo Open 2019 LiDAR + 相机 1,150 GPS/IMU 3D 检测
Oxford RobotCar 2016 多传感器 100+ GPS 长期 SLAM
MulRan 2020 LiDAR 12 GPS 多次会话 SLAM
Hilti 2022 多传感器 9 全站仪 建筑施工 SLAM
NCLT 2016 多传感器 27 GPS 长期定位

TUM RGB-D 序列

最常用的 TUM RGB-D 序列:

fr1_xyz      — 简单平移(30秒,小工作空间)
fr1_desk     — 桌面物体(23秒)
fr1_floor    — 地面扫描(28秒)
fr1_room     — 完整房间遍历(66秒)
fr2_xyz      — 较大工作空间(122秒)
fr2_desk     — 办公桌(99秒)
fr2_360      — 360° 旋转(28秒)
fr2_rpy      — 横滚/俯仰/偏航运动(29秒)
fr3_office   — 完整办公室(30秒)
fr3_nstr     — 噪声纹理(27秒)

评估:使用 'associate.py' 对齐时间戳

操作物体数据集

数据集 年份 物体数 模态 核心特点
YCB 2015 77(5 个类别) 3D 模型 + 实物 行业标准
DexYCB 2021 10 个 YCB 物体 RGB-D + 手部跟踪 灵巧抓取
Google Scanned Objects 2020 1,031 3D 扫描 仿真素材
OmniObject3D 2023 6,000+ 3D 扫描 + 纹理 最大 3D 物体集
ObjectNet 2019 313 个类别 RGB 鲁棒性测试
ACID 2022 1,000+ 3D 模型 关节物体
OakInk 2022 1,800+ RGB-D + 手部 手物交互

YCB 物体类别

YCB 基准测试(5 个类别共 77 个物体):

1. 食品类(20 个物体)
   ├── 罐头食品(番茄汤、金枪鱼等)
   ├── 新鲜农产品(苹果、香蕉、桃子、梨、草莓)
   └── 包装食品(饼干盒、糖盒等)

2. 厨房用品类(17 个物体)
   ├── 餐具(锅铲、勺子、叉子、刀)
   ├── 容器(马克碗、碗、盘子、杯子)
   └── 器皿(水壶、马克杯等)

3. 工具类(19 个物体)
   ├── 手动工具(扳手、钳子、螺丝刀、锤子)
   ├── 测量工具(卷尺)
   └── 夹具与支架

4. 形状与尺寸类(16 个物体)
   ├── 方块(各种尺寸)
   ├── 球体(各种尺寸)
   ├── 圆柱(各种尺寸)
   └── 标准化标定形状

5. 任务类(5 个物体)
   └── 用于操作任务的多部件组装体

操作基准测试

基准测试 年份 任务数 机器人 环境 核心特点
RLBench 2020 100 Franka Panda 仿真 多样化、语言条件化
Meta-World 2019 50 Sawyer 仿真 多任务强化学习
LIBERO 2024 130 Franka Panda 仿真 4 个难度级别
RoboSuite 2021 8+ 多种 仿真 模块化
Calvin 2022 34 Franka 仿真 长时域
BEHAVIOR-1K 2023 1000 多种 OmniGibson 完整家务场景
RoboCasa 2024 100+ 移动操作 仿真 厨房任务
ManiSkill2 2023 20 多种 SAPIEN 关节物体
SAPIEN 2020 多种 仿真 部件级关节

跨本体数据集

数据集 年份 轨迹数 机器人 任务数 核心特点
Open X-Embodiment 2024 1M+ 22 500+ 跨本体
Bridge V2 2023 60K WidowX 10+ 真实机器人
RoboSet 2023 100K+ Franka 11 多任务
RoboTurk 2018 2,152 Sawyer 6 众包
DROID 2024 350K 多种 自然环境

Open X-Embodiment

Open X-Embodiment(Google DeepMind, 2024):
├── 来自 22 种机器人本体的 1M+ 条轨迹
├── 500+ 种不同任务
├── 标准化格式(RLDS)
├── 训练的 RT-X 模型:
│   ├── RT-1-X:在未见过的机器人上提升 50%
│   └── RT-2-X:更好的泛化能力
├── 来自 21 个机构的贡献
└── 论文:Brohan et al., ICRA 2024

模拟器

模拟器 开发者 物理引擎 渲染引擎 主要用途 GPU 加速
Habitat Meta Bullet 自定义 导航
AI2-THOR Allen AI Unity Unity 导航 + 操作
MuJoCo DeepMind MuJoCo EGL 操作
Isaac Sim NVIDIA PhysX 5 RTX 所有任务
SAPIEN UCSD PhysX 自定义 关节物体
RoboSuite Stanford MuJoCo EGL 操作
Gazebo OSRF ODE/Bullet OGRE ROS 集成
PyBullet Bullet OpenGL 快速原型
CARLA Intel Unreal Unreal 驾驶/室外
OmniGibson Stanford PhysX Omniverse 完整家务

模拟器选择指南

我该用哪个模拟器?

导航任务 → Habitat(最快,最大场景)
  └── 需要交互?→ AI2-THOR / iGibson

操作任务 → MuJoCo(快速、精确)
  └── 需要关节物体?→ SAPIEN
  └── 需要 GPU 并行?→ Isaac Sim / Isaac Gym

ROS 集成 → Gazebo(原生 ROS 支持)

快速原型 → PyBullet(易于安装、速度快)

完整家务 → OmniGibson / BEHAVIOR-1K

室外驾驶 → CARLA

多任务研究 → Isaac Sim(最通用)

选择流程图

开始:你要评估什么任务?
├── 导航
│   ├── PointNav → HM3D + Habitat
│   ├── ObjectNav → HM3D + Habitat
│   ├── VLN → Matterport3D + R2R/RxR
│   ├── 探索 → HM3D 或自定义
│   └── 社交 → SCAND + Habitat 3.0
├── SLAM
│   ├── 视觉 SLAM(室内)→ TUM RGB-D、EuRoC
│   ├── 视觉 SLAM(室外)→ KITTI
│   ├── LiDAR SLAM → KITTI、MulRan、Hilti
│   └── 神经 SLAM → Replica、ScanNet、TartanAir
├── 操作
│   ├── 抓取放置 → RLBench、LIBERO
│   ├── 灵巧操作 → DexYCB、Adroit
│   ├── 装配 → 插孔任务、RLBench
│   ├── 柔性物体 → SoftGym
│   └── 移动操作 → BEHAVIOR-1K、RoboCasa
└── 跨任务
    ├── 基础模型 → Open X-Embodiment
    └── 多任务 → BEHAVIOR-1K、RoboBench

参考资料

  • Chang et al. (2017). "Matterport3D: Learning from RGB-D Data in Indoor Environments." 3DV 2017
  • Dai et al. (2017). "ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes." CVPR 2017
  • Ramakrishnan et al. (2021). "Habitat-Matterport 3D Dataset (HM3D)." 3DV 2021
  • Anderson et al. (2018). "Vision-and-Language Navigation." CVPR 2018
  • Calli et al. (2015). "The YCB Object and Model Set." ICRA 2015
  • Chao et al. (2021). "DexYCB: A Benchmark for Capturing Hand Grasping of Objects." CVPR 2021
  • Brohan et al. (2024). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models." ICRA 2024
  • Sturm et al. (2012). "A Benchmark for the Evaluation of RGB-D SLAM Systems." IROS 2012
  • Geiger et al. (2012). "Are we ready for autonomous driving? The KITTI vision benchmark suite." CVPR 2012
  • James et al. (2020). "RLBench: The Robot Learning Benchmark." IEEE RA-L
  • Yu et al. (2020). "SAPIEN: A SimulAted Parted Interactive ENvironment." CVPR 2020