跳转至

Robotics Course Docs

基于模型的强化学习

robotics-course-fz2h

基于模型的强化学习¶

学习动力学¶

\[s_{t+1} = f(s_t, a_t) + \epsilon\]

模型预测控制 (MPC)¶

def mpc_planner(state, horizon=10):
    best_action = None
    best_reward = -inf
    for _ in range(num_samples):
        actions = sample_actions(horizon)
        predicted_states = rollout(state, actions, model)
        reward = sum(reward_fn(predicted_states))
        if reward > best_reward:
            best_reward = reward
            best_action = actions[0]
    return best_action

Dyna架构¶

从真实经验中学习模型
用模型进行规划
用真实和模拟数据更新策略

PETS¶

概率集成轨迹采样： - 神经网络集成 - 不确定性感知规划

← 返回目录

机器人课程文档

Robotics Course Docs

一个覆盖 ROS、感知、规划、仿真、操作与部署的双语机器人课程站。

学习路径

环境准备机器人基础 ROS

实践模块

仿真规划部署

社区

GitHub Bilibili 问题反馈

面向学习者、创客与研究者的机器人课程文档。

© 2026 Ling Shaobin. 保留所有权利。

备案图标粤公网安备44010602015719号