1.6_两种主要方法

两种解决RL问题的主要方法

现在我们已经学习了 RL 框架，我们怎么解决 RL 问题呢？

换句话说，怎么构建一个 RL 智能体，让其能够挑选最大化期望累计奖励的动作

π策略是智能体的大脑，它是告诉我们在给定状态下采取什么行动的函数。因此它定义了智能体在给定时间的行为。

这个策略是我们想要学习的函数的，我们的目标是找到最优策略 π* ，当智能体根据这个策略行动时返回最大期望回报。我们通过训练找到 π*

这里有两种方式去训练我们的智能体找到最优策略π*:

在基于策略的方法中，我们直接学习一个策略函数

这个函数会定义每个状态和其最佳对应动作之间的映射。我们也可以说它定义了在那个状态下可能动作集合的概率分布。

我们有两类策略：

回顾一下：

在基于价值的方法中，相比于训练一个策略函数，我们学习一个价值函数，其能将一个状态映射到该状态的期望价值。

状态的价值是智能体在该状态开始，并根据策略行动所能得到的期望折扣回报。

根据策略执行仅仅代表我们的策略是在那个状态是高价值的

这里我们看的我们的价值函数定义了每个可能状态的价值

多亏了我们的价值函数，在每一步，我们的策略都会选择价值函数定义的最大价值的状态：-7 ，然后是 -6 ，然后是 -5 （以此类推）来达到目标。

回顾一下：