跳转至

机器人操作(Manipulation)

操作是指与物理世界进行交互并对其进行改变的能力——抓取物体、开门、装配零件以及使用工具。由于接触物理(contact physics)的复杂性、动作空间(action space)的高维度以及对精确控制的需求,可以说这是机器人学中最具挑战性的领域。

1. 抓取放置(Pick-and-Place)

任务定义

从一个位置抓取物体并放置到另一个位置。这是最简单的操作形式,但对于任意物体而言仍然是一个开放的研究问题。

形式化规范

Input:  Object pose (or detection from camera), target pose
Output: Grasp pose → approach trajectory → grasp → lift → place
Metric: Success Rate (% of successful placements), completion time

难点分析

Challenges in pick-and-place:
├── Object diversity — Varying shapes, sizes, weights, textures
├── Grasp planning — Where to grasp? What orientation?
├── Slip detection — Is the object securely held?
├── Occlusion — Camera may not see the object clearly
├── Collision avoidance — Avoid hitting other objects
└── Precision — Must place within tolerance (cm-level)

关键基准测试

基准测试 年份 任务数 机器人 核心特点
RLBench 2020 100 Franka Panda 多样化操作任务
Meta-World 2019 50 Sawyer 机械臂 多任务强化学习基准
LIBERO 2024 130 Franka Panda 4 个难度等级
RoboSuite 2021 8+ 多款机械臂 模块化框架
Calvin 2022 34 Franka Panda 长时域、语言条件化

典型流程

RGB-D Camera → Object Detection (YOLO/SAM) → 6-DoF Pose Estimation
→ Grasp Planning (GraspNet / analytic) → Motion Planning (RRT/PRM)
→ Execution (impedance control) → Verification (did it succeed?)

应用场景

  • 仓储物流:将物品装入箱中
  • 制造业:在流水线上放置零部件
  • 家庭服务:收拾餐桌、摆放洗碗机

抓取放置演示

机器人手臂抓取放置动画


2. 装配(Assembly)

任务定义

将多个零件组合成一个更大的结构。需要精确的定位、插入操作,通常还需要力控(force control)交互。

装配类型

类型 示例 难度
轴孔配合(Peg-in-hole) 将轴插入孔中 经典基准测试
齿轮装配 将齿轮啮合 公差要求严格
家具装配 组装宜家家具 长时域、语言指令
电子装配 放置 PCB 元件 微精度操作

关键基准测试

  • 轴孔配合(Peg-in-hole):经典机器人基准测试,公差 < 0.1mm
  • 家具装配:Nocker 等人 (2023),需要语言理解与精确操作能力
  • RoboSet Assembly:包含演示数据的真实世界装配任务

装配中的力控

# Impedance control for assembly tasks
class ImpedanceController:
    """
    Impedance control: makes the robot behave like a spring-damper system.
    Useful for assembly where contact forces must be regulated.
    """

    def __init__(self, stiffness, damping):
        self.K = stiffness    # Spring constant (N/m)
        self.D = damping      # Damping coefficient (N·s/m)

    def compute_force(self, x_current, x_desired, v_current, v_desired):
        """
        F = K * (x_desired - x_current) + D * (v_desired - v_current)

        When the robot pushes against a wall:
        - x_current can't move further → force increases
        - The force is regulated by K and D
        """
        position_error = x_desired - x_current
        velocity_error = v_desired - v_current
        force = self.K * position_error + self.D * velocity_error
        return force

应用场景

  • 制造业:自动化装配线
  • 建筑业:预制建筑构件装配
  • 太空:在轨卫星装配

3. 灵巧操作(Dexterous Manipulation)

任务定义

使用**多指灵巧手(multi-fingered hand)**操控物体,灵巧程度可与人手媲美。包括手内重定向、精密抓取和精细运动技能。

为什么需要灵巧操作?

Comparison of grippers:

Parallel Gripper (2 fingers):
├── Simple, reliable
├── Limited grasp types (pinch only)
└── Cannot reorient objects in hand

Dexterous Hand (5+ fingers):
├── Can grasp any shape
├── Can reorient objects in-hand
├── Can use tools
└── Much harder to control (20+ DoF)

关键基准测试

基准测试 年份 手型 任务 核心特点
DexYCB 2021 人手 抓取 58.2 万帧手-物体数据
Adroit 2018 Shadow Hand 操控笔 强化学习基准
DexArt 2023 Allegro Hand 关节物体 真实世界灵巧操作
TACTILE 2024 多种手型 接触丰富任务 触觉感知

数据集

  • DexYCB (CVPR 2021):58.2 万帧 RGB-D 数据,记录 10 名受试者抓取 10 个 YCB 物体
  • GRAB (Sigal 等人, 2021):全身抓取数据,包含接触信息
  • OakInk (Yang 等人, 2022):1800+ 物体,手-物体交互数据

最新方法

Dexterous manipulation approaches:

1. RL + Simulation (most popular)
   Train in Isaac Gym / MuJoCo with domain randomization
   Example: DAPG (Rajeswaran et al., 2018)

2. Teleoperation → Imitation
   Human demonstrates with glove → robot learns from demos
   Example: DexYCB, T-AIR

3. Tactile-Guided Control
   Use tactile sensors (GelSight, DIGIT) for contact feedback
   Example: TACTO, FingerVision

4. Foundation Models for Manipulation
   Use pretrained vision models to guide manipulation
   Example: RT-2, Octo

应用场景

  • 假肢:灵巧仿生手
  • 制造业:处理小型不规则零件
  • 服务机器人:操控日常物体(瓶子、工具、食物)

4. 柔性物体操作(Deformable Object Manipulation)

任务定义

操控在交互过程中会**改变形状**的物体——布料、绳索、食物、线缆、软组织。与刚性物体不同,柔性物体的状态空间是无限维度的。

类型

物体 示例任务 难度
布料(Cloth) 叠衣服 高——悬挂、折叠
绳索(Rope) 打结 高——拓扑变化
线缆(Cable) 走线布线 中——路径规划、避免缠绕
食物(Food) 切蔬菜 中——切割、分份
软组织(Soft tissue) 手术操作 极高——精度、安全要求

核心挑战

Deformable manipulation challenges:
├── State representation — How to represent cloth/rope state?
├── Simulation — Physics of deformable bodies is expensive
├── Perception — Tracking deformable objects is hard
├── Planning — Infinite-dimensional configuration space
└── Sim-to-real — Deformable sim doesn't transfer well

关键基准测试

  • SoftGym (Lin 等人, 2020):仿真中的布料/流体操作
  • ROBOSURF (Qi 等人, 2022):线缆布线基准测试
  • Gym-Fluid(多方参与):流体倾倒与操作

应用场景

  • 洗衣:叠衣服
  • 农业:采摘软质水果
  • 医疗:机器人辅助微创手术

5. 工具使用(Tool Use)

任务定义

使用**外部工具**扩展机器人的能力——锤子、螺丝刀、铲子、剪刀。需要理解工具的功能可供性(affordance),以及如何抓取和使用它们。

示例

Tool use tasks:
├── Hammer — Drive a nail
├── Screwdriver — Turn a screw
├── Spatula — Flip a pancake
├── Scissors — Cut paper
├── Wrench — Tighten a bolt
└── Brush — Paint a surface

关键数据集

  • Something-Something V2 (Goyal 等人, 2017):22 万段物体交互视频,包含工具使用
  • EPIC-KITCHENS (Damen 等人, 2018):第一人称厨房活动视频,包含工具操作
  • RoboSet (Bharadhwaj 等人, 2023):11 个任务,包含工具使用(切割、擦拭、清扫)

应用场景

  • 制造业:自主使用电动工具
  • 厨房:使用厨具烹饪
  • 维修维护:使用诊断设备

6. 移动操作(Mobile Manipulation)

任务定义

将导航与操作相结合——机器人必须移动到指定位置并在此处操控物体。这是最贴近现实且最具挑战性的任务类别。

为什么重要?

Real-world tasks are almost always mobile manipulation:
  "Make coffee" = Navigate to kitchen + pick up mug + 
                  operate coffee machine + carry mug back

  "Clean the room" = Navigate to mess + pick up items + 
                     navigate to trash/shelf + place items

关键基准测试

基准测试 年份 环境 任务 核心特点
Habitat 2.0 2021 仿真 场景重排 基于物理引擎
TEACh 2022 AI2-THOR 对话式任务 语言 + 操作
BEHAVIOR-1K 2023 OmniGibson 1000 种活动 全屋任务
RoboCasa 2024 仿真 厨房任务 大规模厨房仿真

应用场景

  • 家庭助手:通用家务机器人
  • 养老护理:辅助日常活动
  • 物流配送:从货架取货并送达

操作任务对比

任务 核心挑战 所需自由度 仿真质量 真实差距
抓取放置 抓取规划 6–7 良好
装配 精度、力控 6–7 + 力觉 中等
灵巧操作 高自由度控制 20+ 中等
柔性物体 状态表示 6+ 极大
工具使用 功能可供性理解 6–7 良好
移动操作 导航 + 操作 6 + 底盘 中等

操作领域物体数据集

数据集 物体数量 数据模态 核心特点
YCB 77(5 类) 3D 模型 + 实物 行业标准
DexYCB 10 个 YCB 物体 RGB-D + 手部追踪 灵巧抓取
Google Scanned Objects 1,031 3D 扫描 仿真资产
ObjectNet 313 类,5 万张图像 RGB 鲁棒性测试
ACID 1,000+ 3D 模型 关节物体
OmniObject3D 6,000+ 3D 扫描 + 纹理 最大 3D 物体集

参考资料

  • Tobin et al. (2017). "Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World." IROS 2017
  • Rajeswaran et al. (2018). "Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations." RSS 2018
  • James et al. (2020). "RLBench: The Robot Learning Benchmark & Learning Environment." IEEE RA-L
  • Mees et al. (2022). "CALVIN: A Benchmark for Language-Conditioned Policy Learning." ICRA 2022
  • Bharadhwaj et al. (2023). "RoboSet: A Multi-Task Dataset for Robot Learning." ICRA 2023
  • Zhao et al. (2024). "RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots." RSS 2024
  • Brohan et al. (2024). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models." ICRA 2024