Skip to content

Robotics Course Docs

RL for Manipulation

robotics-course-fz2h

Reinforcement Learning for Manipulation¶

Policy Gradient Methods¶

REINFORCE¶

\[\nabla J = \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) G_t]\]

PPO (Proximal Policy Optimization)¶

Clipped objective for stable learning:

\[L^{CLIP} = \mathbb{E}[\min(r_t A_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t)]\]

Model-Based RL¶

Learn dynamics model for planning:

Collect data
Fit dynamics model
Plan with learned model
Execute and refine

Sim-to-Real Transfer¶

Domain randomization
System identification
Progressive fine-tuning

← Back to Index

Robotics Curriculum

Robotics Course Docs

A bilingual robotics learning site covering ROS, perception, planning, simulation, manipulation, and deployment.

Learn

Environment Setup Robotics Basics ROS

Build

Simulation Planning Deployment

Community

GitHub Bilibili Issues

Robotics course docs for learners, makers, and researchers.

© 2026 Ling Shaobin. All Rights Reserved.

备案图标粤公网安备44010602015719号