基于模型的强化学习¶
学习动力学¶
\[s_{t+1} = f(s_t, a_t) + \epsilon\]
模型预测控制 (MPC)¶
def mpc_planner(state, horizon=10):
best_action = None
best_reward = -inf
for _ in range(num_samples):
actions = sample_actions(horizon)
predicted_states = rollout(state, actions, model)
reward = sum(reward_fn(predicted_states))
if reward > best_reward:
best_reward = reward
best_action = actions[0]
return best_action
Dyna架构¶
- 从真实经验中学习模型
- 用模型进行规划
- 用真实和模拟数据更新策略
PETS¶
概率集成轨迹采样: - 神经网络集成 - 不确定性感知规划