强化学习¶ 本模块涵盖强化学习基础及其机器人应用。 目录¶ 基础 - MDP、贝尔曼方程、价值函数 基于价值的方法 - Q-learning、DQN 策略梯度 - REINFORCE、PPO、TRPO 基于模型的RL - 学习动力学、MPC 机器人应用 - 操作和locomotion中的RL 前置知识¶ Python编程 基础概率统计 神经网络基础 常用库¶ Stable Baselines3: 可靠的RL实现 RLlib: 可扩展RL Tianshou: 高性能Python RL ← 返回首页