跳转至

Robotics Course Docs

面向操作的强化学习

robotics-course-fz2h

操作强化学习¶

策略梯度方法¶

REINFORCE¶

\[\nabla J = \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) G_t]\]

PPO（近端策略优化）¶

稳定学习的裁剪目标：

\[L^{CLIP} = \mathbb{E}[\min(r_t A_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) A_t)]\]

基于模型的强化学习¶

学习用于规划的动态模型：

收集数据
拟合动态模型
用学习到的模型规划
执行并改进

仿真到真实迁移¶

领域随机化
系统辨识
渐进式微调

← 返回目录

机器人课程文档

Robotics Course Docs

一个覆盖 ROS、感知、规划、仿真、操作与部署的双语机器人课程站。

学习路径

环境准备机器人基础 ROS

实践模块

仿真规划部署

社区

GitHub Bilibili 问题反馈

面向学习者、创客与研究者的机器人课程文档。

© 2026 Ling Shaobin. 保留所有权利。

备案图标粤公网安备44010602015719号