8.1_介绍

Unit 8

在第六单元,我们学习了优势演员评论员(A2C),这是一种结合了基于价值和基于策略的方法的混合架构,通过以下方法减少方差来帮助稳定训练:

今天,我们将要学习近端策略优化(PPO)算法,一种通过回避大量策略更新来提升我们智能体训练的稳定性的架构。为了做到此目的,我们使用一个比率来指示我们当前和旧策略之间的差异,并将该比率剪切到特定范围 \( [1 - \epsilon, 1 + \epsilon] \) 。

这样做可以保证我们的策略更新不会太大,训练更稳定。

本单元分为两个部分:

Environment
这是你将要训练你智能体的环境: VizDoom 环境

听起来不错?那让我们开始把!🚀