9.2_基于模型的强化学习 (MBRL)

基于模型的强化学习(Model-based reinforcement learning)与无模型的强化学习方法在学习上的区别在于学习一个动力学模型,但这对于决策过程产生了重要的影响。

动力学模型通常用来建模环境的转换动力学,即 \( s_{t+1} = f_\theta (s_t, a_t) \),但在该框架中也可以使用逆动力学模型(从状态到动作的映射)或奖励模型(预测奖励)。

简单定义

学术定义

基于模型的强化学习(MBRL)遵循智能体在环境中相互作用、学习环境模型,并将模型用于控制(做出决策)的框架。

具体而言,智能体在由转移函数 \( s_{t+1} = f (s_t , a_t) \) 控制的马尔可夫决策过程(MDP)中进行行动,并在每一步返回奖励 \( r(s_t, a_t) \)。通过收集的数据集 \( D :={ s_i, a_i, s_{i+1}, r_i} \),智能体学习一个模型 \( s_{t+1} = f_\theta (s_t , a_t) \) 来最小化转换的负对数似然

我们采用基于样本的模型预测控制(Model-Predictive Control,MPC),利用学习到的动力学模型,在从均匀分布 \( U(a) \) 中采样的一组动作上,对有限的、递归预测的时间范围 \( \tau \) 进行预期奖励的优化(详见论文论文论文)。

补充阅读

如需了解有关基于模型的强化学习(MBRL)的更多信息,我们建议您查阅以下资源:

作者

本节由 Nathan Lambert 撰写。