5.4_Pyramids 环境

在这种环境下我们的目标是训练我们的智能体获得金字塔顶端的金砖。为此，它需要按下一个按钮来生成金字塔，导航到金字塔，将其推倒，然后移动到顶部的金砖。

奖励函数：

奖励函数如下：

在代码方面，他看起来像这样

为了训练这个新的智能体去寻找那个按钮并且之后去摧毁金字塔，我们结合了以下两种奖励机制：

如果你想对好奇心机制了解更多，下一部分(选修)将会解释其基本原理。

在观测方面，我们使用了 148 个光线投射，每个光线投射都可以检测物体(开关，砖块，金砖和墙壁)。

我们还使用一个布尔变量来指示开关状态（我们是打开还是关闭开关来生成金字塔）和一个包含智能体速度的向量。

动作空间是离散的，有以下四种可能动作：