跳转至

Robotics Course Docs

值函数方法

robotics-course-fz2h

基于价值的方法¶

Q-Learning¶

离策略TD控制算法：

def q_learning(env, episodes=1000):
    Q = np.zeros((state_n, action_n))
    for episode in range(episodes):
        state = env.reset()
        done = False
        while not done:
            action = epsilon_greedy(Q[state])
            next_state, reward, done, _ = env.step(action)
            Q[state, action] += alpha * (
                reward + gamma * np.max(Q[next_state]) - Q[state, action]
            )
            state = next_state
    return Q

深度Q网络 (DQN)¶

使用神经网络近似Q函数：

经验回放: 在缓冲区存储转换
目标网络: 稳定训练
双DQN: 减少过度估计

扩展¶

Dueling DQN: 分离价值和优势
优先经验回放: 采样重要转换

← 返回目录

机器人课程文档

Robotics Course Docs

一个覆盖 ROS、感知、规划、仿真、操作与部署的双语机器人课程站。

学习路径

环境准备机器人基础 ROS

实践模块

仿真规划部署

社区

GitHub Bilibili 问题反馈

面向学习者、创客与研究者的机器人课程文档。

© 2026 Ling Shaobin. 保留所有权利。

备案图标粤公网安备44010602015719号