跳转至

Robotics Course Docs

基础

robotics-course-fz2h

强化学习基础¶

马尔可夫决策过程 (MDP)¶

由 \((S, A, P, R, \gamma)\) 定义的序贯决策问题：

S: 状态空间
A: 动作空间
P: 转移概率 \(P(s'|s,a)\)
R: 奖励函数 \(R(s,a,s')\)
\(\gamma\): 折扣因子

价值函数¶

状态价值函数¶

\[V^\pi(s) = \mathbb{E}_\pi [G_t | s_t = s]\]

动作价值函数¶

\[Q^\pi(s,a) = \mathbb{E}_\pi [G_t | s_t = s, a_t = a]\]

贝尔曼方程¶

\[V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')]\]

最优策略¶

\[V^*(s) = \max_\pi V^\pi(s)\]

← 返回目录

机器人课程文档

Robotics Course Docs

一个覆盖 ROS、感知、规划、仿真、操作与部署的双语机器人课程站。

学习路径

环境准备机器人基础 ROS

实践模块

仿真规划部署

社区

GitHub Bilibili 问题反馈

面向学习者、创客与研究者的机器人课程文档。

© 2026 Ling Shaobin. 保留所有权利。

备案图标粤公网安备44010602015719号