8.2_PPO 的直观理解
近端策略优化(PPO)的理念是通过限制你每一个训练时期你对于策略的改变来提升训练策略的稳定性:我们想要避免过大的策略更新。
我们有两个理由:
- 我们经验上知道,在训练过程中采用更小的策略更新更有可能收敛到最优解。
- 策略更新中过大的步长可能会导致“坠崖”(得到一个糟糕的策略),并且需要很长时间去恢复,甚至没有恢复的可能性。
所以在使用 PPO 时,我们更新策略非常保守。为此,我们需要使用当前和以前的策略之间的比率计算来衡量与前一项策略相比,当前策略的变化是多少。并且我们把这个范围限制在了 \( [1 - \epsilon, 1 + \epsilon] \) 之间,这意味着我们去除了当前策略离旧策略太远的激励(因此有了近端策略这个术语)。