机器人操作(Manipulation)¶
操作是指与物理世界进行交互并对其进行改变的能力——抓取物体、开门、装配零件以及使用工具。由于接触物理(contact physics)的复杂性、动作空间(action space)的高维度以及对精确控制的需求,可以说这是机器人学中最具挑战性的领域。
1. 抓取放置(Pick-and-Place)¶
任务定义¶
从一个位置抓取物体并放置到另一个位置。这是最简单的操作形式,但对于任意物体而言仍然是一个开放的研究问题。
形式化规范¶
Input: Object pose (or detection from camera), target pose
Output: Grasp pose → approach trajectory → grasp → lift → place
Metric: Success Rate (% of successful placements), completion time
难点分析¶
Challenges in pick-and-place:
├── Object diversity — Varying shapes, sizes, weights, textures
├── Grasp planning — Where to grasp? What orientation?
├── Slip detection — Is the object securely held?
├── Occlusion — Camera may not see the object clearly
├── Collision avoidance — Avoid hitting other objects
└── Precision — Must place within tolerance (cm-level)
关键基准测试¶
| 基准测试 | 年份 | 任务数 | 机器人 | 核心特点 |
|---|---|---|---|---|
| RLBench | 2020 | 100 | Franka Panda | 多样化操作任务 |
| Meta-World | 2019 | 50 | Sawyer 机械臂 | 多任务强化学习基准 |
| LIBERO | 2024 | 130 | Franka Panda | 4 个难度等级 |
| RoboSuite | 2021 | 8+ | 多款机械臂 | 模块化框架 |
| Calvin | 2022 | 34 | Franka Panda | 长时域、语言条件化 |
典型流程¶
RGB-D Camera → Object Detection (YOLO/SAM) → 6-DoF Pose Estimation
→ Grasp Planning (GraspNet / analytic) → Motion Planning (RRT/PRM)
→ Execution (impedance control) → Verification (did it succeed?)
应用场景¶
- 仓储物流:将物品装入箱中
- 制造业:在流水线上放置零部件
- 家庭服务:收拾餐桌、摆放洗碗机
抓取放置演示¶

2. 装配(Assembly)¶
任务定义¶
将多个零件组合成一个更大的结构。需要精确的定位、插入操作,通常还需要力控(force control)交互。
装配类型¶
| 类型 | 示例 | 难度 |
|---|---|---|
| 轴孔配合(Peg-in-hole) | 将轴插入孔中 | 经典基准测试 |
| 齿轮装配 | 将齿轮啮合 | 公差要求严格 |
| 家具装配 | 组装宜家家具 | 长时域、语言指令 |
| 电子装配 | 放置 PCB 元件 | 微精度操作 |
关键基准测试¶
- 轴孔配合(Peg-in-hole):经典机器人基准测试,公差 < 0.1mm
- 家具装配:Nocker 等人 (2023),需要语言理解与精确操作能力
- RoboSet Assembly:包含演示数据的真实世界装配任务
装配中的力控¶
# Impedance control for assembly tasks
class ImpedanceController:
"""
Impedance control: makes the robot behave like a spring-damper system.
Useful for assembly where contact forces must be regulated.
"""
def __init__(self, stiffness, damping):
self.K = stiffness # Spring constant (N/m)
self.D = damping # Damping coefficient (N·s/m)
def compute_force(self, x_current, x_desired, v_current, v_desired):
"""
F = K * (x_desired - x_current) + D * (v_desired - v_current)
When the robot pushes against a wall:
- x_current can't move further → force increases
- The force is regulated by K and D
"""
position_error = x_desired - x_current
velocity_error = v_desired - v_current
force = self.K * position_error + self.D * velocity_error
return force
应用场景¶
- 制造业:自动化装配线
- 建筑业:预制建筑构件装配
- 太空:在轨卫星装配
3. 灵巧操作(Dexterous Manipulation)¶
任务定义¶
使用**多指灵巧手(multi-fingered hand)**操控物体,灵巧程度可与人手媲美。包括手内重定向、精密抓取和精细运动技能。
为什么需要灵巧操作?¶
Comparison of grippers:
Parallel Gripper (2 fingers):
├── Simple, reliable
├── Limited grasp types (pinch only)
└── Cannot reorient objects in hand
Dexterous Hand (5+ fingers):
├── Can grasp any shape
├── Can reorient objects in-hand
├── Can use tools
└── Much harder to control (20+ DoF)
关键基准测试¶
| 基准测试 | 年份 | 手型 | 任务 | 核心特点 |
|---|---|---|---|---|
| DexYCB | 2021 | 人手 | 抓取 | 58.2 万帧手-物体数据 |
| Adroit | 2018 | Shadow Hand | 操控笔 | 强化学习基准 |
| DexArt | 2023 | Allegro Hand | 关节物体 | 真实世界灵巧操作 |
| TACTILE | 2024 | 多种手型 | 接触丰富任务 | 触觉感知 |
数据集¶
- DexYCB (CVPR 2021):58.2 万帧 RGB-D 数据,记录 10 名受试者抓取 10 个 YCB 物体
- GRAB (Sigal 等人, 2021):全身抓取数据,包含接触信息
- OakInk (Yang 等人, 2022):1800+ 物体,手-物体交互数据
最新方法¶
Dexterous manipulation approaches:
1. RL + Simulation (most popular)
Train in Isaac Gym / MuJoCo with domain randomization
Example: DAPG (Rajeswaran et al., 2018)
2. Teleoperation → Imitation
Human demonstrates with glove → robot learns from demos
Example: DexYCB, T-AIR
3. Tactile-Guided Control
Use tactile sensors (GelSight, DIGIT) for contact feedback
Example: TACTO, FingerVision
4. Foundation Models for Manipulation
Use pretrained vision models to guide manipulation
Example: RT-2, Octo
应用场景¶
- 假肢:灵巧仿生手
- 制造业:处理小型不规则零件
- 服务机器人:操控日常物体(瓶子、工具、食物)
4. 柔性物体操作(Deformable Object Manipulation)¶
任务定义¶
操控在交互过程中会**改变形状**的物体——布料、绳索、食物、线缆、软组织。与刚性物体不同,柔性物体的状态空间是无限维度的。
类型¶
| 物体 | 示例任务 | 难度 |
|---|---|---|
| 布料(Cloth) | 叠衣服 | 高——悬挂、折叠 |
| 绳索(Rope) | 打结 | 高——拓扑变化 |
| 线缆(Cable) | 走线布线 | 中——路径规划、避免缠绕 |
| 食物(Food) | 切蔬菜 | 中——切割、分份 |
| 软组织(Soft tissue) | 手术操作 | 极高——精度、安全要求 |
核心挑战¶
Deformable manipulation challenges:
├── State representation — How to represent cloth/rope state?
├── Simulation — Physics of deformable bodies is expensive
├── Perception — Tracking deformable objects is hard
├── Planning — Infinite-dimensional configuration space
└── Sim-to-real — Deformable sim doesn't transfer well
关键基准测试¶
- SoftGym (Lin 等人, 2020):仿真中的布料/流体操作
- ROBOSURF (Qi 等人, 2022):线缆布线基准测试
- Gym-Fluid(多方参与):流体倾倒与操作
应用场景¶
- 洗衣:叠衣服
- 农业:采摘软质水果
- 医疗:机器人辅助微创手术
5. 工具使用(Tool Use)¶
任务定义¶
使用**外部工具**扩展机器人的能力——锤子、螺丝刀、铲子、剪刀。需要理解工具的功能可供性(affordance),以及如何抓取和使用它们。
示例¶
Tool use tasks:
├── Hammer — Drive a nail
├── Screwdriver — Turn a screw
├── Spatula — Flip a pancake
├── Scissors — Cut paper
├── Wrench — Tighten a bolt
└── Brush — Paint a surface
关键数据集¶
- Something-Something V2 (Goyal 等人, 2017):22 万段物体交互视频,包含工具使用
- EPIC-KITCHENS (Damen 等人, 2018):第一人称厨房活动视频,包含工具操作
- RoboSet (Bharadhwaj 等人, 2023):11 个任务,包含工具使用(切割、擦拭、清扫)
应用场景¶
- 制造业:自主使用电动工具
- 厨房:使用厨具烹饪
- 维修维护:使用诊断设备
6. 移动操作(Mobile Manipulation)¶
任务定义¶
将导航与操作相结合——机器人必须移动到指定位置并在此处操控物体。这是最贴近现实且最具挑战性的任务类别。
为什么重要?¶
Real-world tasks are almost always mobile manipulation:
"Make coffee" = Navigate to kitchen + pick up mug +
operate coffee machine + carry mug back
"Clean the room" = Navigate to mess + pick up items +
navigate to trash/shelf + place items
关键基准测试¶
| 基准测试 | 年份 | 环境 | 任务 | 核心特点 |
|---|---|---|---|---|
| Habitat 2.0 | 2021 | 仿真 | 场景重排 | 基于物理引擎 |
| TEACh | 2022 | AI2-THOR | 对话式任务 | 语言 + 操作 |
| BEHAVIOR-1K | 2023 | OmniGibson | 1000 种活动 | 全屋任务 |
| RoboCasa | 2024 | 仿真 | 厨房任务 | 大规模厨房仿真 |
应用场景¶
- 家庭助手:通用家务机器人
- 养老护理:辅助日常活动
- 物流配送:从货架取货并送达
操作任务对比¶
| 任务 | 核心挑战 | 所需自由度 | 仿真质量 | 真实差距 |
|---|---|---|---|---|
| 抓取放置 | 抓取规划 | 6–7 | 良好 | 小 |
| 装配 | 精度、力控 | 6–7 + 力觉 | 中等 | 中 |
| 灵巧操作 | 高自由度控制 | 20+ | 中等 | 大 |
| 柔性物体 | 状态表示 | 6+ | 差 | 极大 |
| 工具使用 | 功能可供性理解 | 6–7 | 良好 | 中 |
| 移动操作 | 导航 + 操作 | 6 + 底盘 | 中等 | 大 |
操作领域物体数据集¶
| 数据集 | 物体数量 | 数据模态 | 核心特点 |
|---|---|---|---|
| YCB | 77(5 类) | 3D 模型 + 实物 | 行业标准 |
| DexYCB | 10 个 YCB 物体 | RGB-D + 手部追踪 | 灵巧抓取 |
| Google Scanned Objects | 1,031 | 3D 扫描 | 仿真资产 |
| ObjectNet | 313 类,5 万张图像 | RGB | 鲁棒性测试 |
| ACID | 1,000+ | 3D 模型 | 关节物体 |
| OmniObject3D | 6,000+ | 3D 扫描 + 纹理 | 最大 3D 物体集 |
参考资料¶
- Tobin et al. (2017). "Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World." IROS 2017
- Rajeswaran et al. (2018). "Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations." RSS 2018
- James et al. (2020). "RLBench: The Robot Learning Benchmark & Learning Environment." IEEE RA-L
- Mees et al. (2022). "CALVIN: A Benchmark for Language-Conditioned Policy Learning." ICRA 2022
- Bharadhwaj et al. (2023). "RoboSet: A Multi-Task Dataset for Robot Learning." ICRA 2023
- Zhao et al. (2024). "RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots." RSS 2024
- Brohan et al. (2024). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models." ICRA 2024