5.4_Pyramids 环境
在这种环境下我们的目标是训练我们的智能体获得金字塔顶端的金砖。为此,它需要按下一个按钮来生成金字塔,导航到金字塔,将其推倒,然后移动到顶部的金砖。
奖励函数:
奖励函数如下:
在代码方面,他看起来像这样

为了训练这个新的智能体去寻找那个按钮并且之后去摧毁金字塔,我们结合了以下两种奖励机制:
- 环境所给的外在条件(上述描述的)。
- 但是同样结合内部称之为好奇心的机制。这个第二种机制将会让你的智能体变得更好奇,换句话说,这将会帮助你更好探索环境。
如果你想对好奇心机制了解更多,下一部分(选修)将会解释其基本原理。
观测空间
在观测方面,我们使用了 148 个光线投射,每个光线投射都可以检测物体(开关,砖块,金砖和墙壁)。
我们还使用一个布尔变量来指示开关状态(我们是打开还是关闭开关来生成金字塔)和一个包含智能体速度的向量。
动作空间
动作空间是离散的,有以下四种可能动作: