6.3_优势演员--评论员（A2C）方法

使用演员--评论员方法减少方差

减少强化学习算法的方差并更快更好地训练我们的智能体的解决方案是结合使用基于策略和基于价值的方法：演员--评论员方法。

要了解演员--评论员方法，请想象你玩电子游戏。你可以和一个朋友一起玩，他会给你一些反馈。此种情况下，你是演员，你的朋友是评论员。

一开始你不知道怎么玩，所以你随机尝试一些动作。评论员会观察你的行为并提供反馈。

从此反馈中学习，你将更新你的策略并更好地玩该游戏。

另一方面，你的朋友（评论员）也会更新他们提供反馈的方式，以便下次可以做得更好。

这就是“演员--评论员”方法背后的理念。我们学习了两个函数近似:

现在我们已经有了对演员--评论员方法的总体看法，让我们更深入地了解演员和评论员在训练过程中是如何一起改进的。

正如我们所见，对于演员--评论员方法，有两个函数近似（两个神经网络）：

让我们看看训练过程，了解演员和评论员是如何优化的：

我们可以通过使用优势函数作为评论员以替代动作价值函数来进一步稳定学习。

这个想法是优势函数计算一个动作与一个状态下可能的其他动作相比的相对优势：与状态的平均值相比，在一个状态下采取该动作如何更好。它是从状态动作对中减去状态的平均值：

换句话说，这个函数计算如果我们在那个状态下采取这个行动，我们得到的额外奖励和我们在那个状态下得到的平均奖励相比较的结果。

额外的奖励是超出该状态期望价值的东西。

实现这个优势函数的问题在于它需要两个值函数——\( Q(s,a)\) 和 \( V(s)\)。幸运的是，我们可以使用 TD 误差作为优势函数的较好估计量。