6.1_介绍

Thumbnail

在第 4 单元中,我们了解了我们的第一个基于策略的算法,称为 Reinforce

在基于策略的方法中,我们的目标是直接优化策略而不使用价值函数。 更准确地说,Reinforce 是 基于策略的方法 子类的一部分,称为 策略梯度方法。 该子类通过使用梯度上升估计最优策略的权重来直接优化策略。

我们看到 Reinforce 运作良好。 然而,因为我们使用蒙特卡洛采样来估计回报(我们使用整个回报来计算回报),我们在策略梯度估计方面存在明显的差异

请记住,策略梯度估计是回报增长最快的方向。 换句话说,如何更新我们的策略权重,使带来良好回报的行动更有可能被采取。 我们在本单元中进一步研究的蒙特卡洛方差会导致训练速度变慢,因为我们需要大量样本来缓解该问题

因此,今天我们将研究 演员--评论员方法,这是一种结合了基于价值和基于策略的方法的混合架构,通过减少方差来帮助稳定训练:

我们将研究其中一种混合方法 高级演员--评论员方法 (A2C),并在机器人环境中使用 Stable-Baselines3 训练我们的智能体。 我们将训练下面的机器人:

听起来很令人兴奋? 让我们开始吧!