跳转至

Robotics Course Docs

动态规划

动态规划¶

已知 MDP 下的精确求解方法：策略评估、策略迭代、价值迭代及其收敛性质。所有 RL 算法的理论基础。

Learning Objectives¶

1. From MDP to Dynamic Programming¶

1.1 When Can We Use DP?¶

1.2 The Curse of Dimensionality¶

2. Policy Evaluation (Prediction)¶

2.1 Iterative Policy Evaluation¶

2.2 Convergence¶

3. Policy Iteration¶

3.1 Policy Improvement Theorem¶

3.2 Full Algorithm¶

4. Value Iteration¶

4.1 Bellman Optimality Backup¶

4.2 Full Algorithm¶

5. Asynchronous DP¶

6. Generalized Policy Iteration (GPI)¶

7. Python Implementation: Grid World¶

Exercises¶

References¶

机器人课程文档

Robotics Course Docs

一个覆盖 ROS、感知、规划、仿真、操作与部署的双语机器人课程站。

学习路径

环境准备机器人基础 ROS

实践模块

仿真规划部署

社区

GitHub Bilibili 问题反馈

面向学习者、创客与研究者的机器人课程文档。

© 2026 Ling Shaobin. 保留所有权利。

备案图标粤公网安备44010602015719号