1.6_两种主要方法

两种解决RL问题的主要方法

现在我们已经学习了 RL 框架,我们怎么解决 RL 问题呢?

换句话说,怎么构建一个 RL 智能体,让其能够挑选最大化期望累计奖励的动作

π策略:智能体的大脑

π策略是智能体的大脑,它是告诉我们在给定状态下采取什么行动的函数。因此它定义了智能体在给定时间的行为

Policy
思考作为我们智能体大脑的策略,这个函数会告诉我们智能体的动作状态

这个策略是我们想要学习的函数的,我们的目标是找到最优策略 π* ,当智能体根据这个策略行动时返回最大期望回报。我们通过训练找到 π*

这里有两种方式去训练我们的智能体找到最优策略π*:

基于策略方法

在基于策略的方法中,我们直接学习一个策略函数

这个函数会定义每个状态和其最佳对应动作之间的映射。我们也可以说它定义了在那个状态下可能动作集合的概率分布。

Policy
如图所见, 策略 (确定的) 直接指示每一步该怎么走.

我们有两类策略:

Policy
动作 = 策略(状态)
Policy
Policy
策略(动作 | 状态) = 给定当前状态下动作集合的概率分布
Policy Based
给定一个初始状态,我们的随机策略将输出该状态下可能动作的概率分布。

回顾一下:

Pbm recap Pbm recap

基于价值的方法

在基于价值的方法中,相比于训练一个策略函数,我们学习一个价值函数,其能将一个状态映射到该状态的期望价值。

状态的价值是智能体在该状态开始,并根据策略行动所能得到的期望折扣回报

根据策略执行仅仅代表我们的策略是在那个状态是高价值的

Value based RL

这里我们看的我们的价值函数定义了每个可能状态的价值

Value based RL
多亏了我们的价值函数,在每一步,我们的策略都会选择价值函数定义的最大值的状态:-7 ,然后是 -6 ,然后是 -5 (依此类推)以达到目标。

多亏了我们的价值函数,在每一步,我们的策略都会选择价值函数定义的最大价值的状态:-7 ,然后是 -6 ,然后是 -5 (以此类推)来达到目标。

回顾一下:

Vbm recap Vbm recap