4.2_什么是基于策略的方法?

强化学习的主要目标是找到最优策略 \(\pi^{*}\) 可以最大化累积奖励期望。 因为强化学习是基于奖励假设所有目标可以被描述为累计奖励期望的最大化。

举个例子,在足球比赛中(你在第二单元中训练的智能体),你的目标是赢得比赛。我们在强化学习中可以把这个目标描述为最大化进球数(当球越过球门线时)进入对手的足球门,并最小化进入你自己的足球门的进球数。

Soccer

基于价值,基于策略,和演员-评论员方法

我们在第一单元的学习中,我们有两个方法去寻找(大部分时间是近似)最优策略 \(\pi^{*}\)。

Policy based

所以,多亏了基于策略的方法,我们可以直接最优化我们的策略 \(\pi_\theta\) 来输出动作的概率分布 \(\pi_\theta(a|s)\),从而得到最佳累积回报。为了达到这个目的,我们定义了目标函数 \(J(\theta)\),其代表期望累积奖励,并且我们想要找到可以最大化目标函数的 \(\theta\)

基于策略和策略梯度方法的不同

策略梯度方法,我们将要在本单元学习的内容,是一种基于策略方法的子类。在基于策略的方法中,优化大部分时间都是同策略的,因为对于每次更新,我们只使用由我们最近版本的 \(\pi_\theta\) 收集的数据(轨迹)。

两种方法的不同之处在于我们怎么优化参数 \(\theta\):

在深入了解策略梯度方法如何工作(目标函数、策略梯度定理、梯度上升等)之前,让我们先研究一下基于策略的方法的优缺点。