1.8_总结
摘要
前面涉及了很多信息!现在让我们简单概括一下:
-
强化学习是一种从动作中学习的计算方法。我们构建了一个从环境中学习的智能体通过试错与它交互并接收奖励(负面或正面)作为反馈。
-
任何RL智能体的目标都是最大化其期望累积奖励(也称为期望回报),因为 RL 基于奖励假设,即所有目标都可以描述为最大化期望累积奖励。
-
RL 过程是一个循环,该循环输出一个 状态、动作、奖励 和 下一个状态的序列。
-
为了计算期望的累积奖励(期望回报),我们对奖励进行折扣:较早出现的奖励(在游戏开始时)*更有可能发生,因为它们比长期的未来奖励更可预测。 *
-
要解决 RL 问题,你需要找到最优策略。该策略是你智能体的“大脑”,它将告诉我们在给定状态下采取什么动作。最优策略为你提供了最大化期望回报的动作。
-
有两种方法可以找到你的最佳策略:
- 通过直接训练你的策略:基于策略的方法。
- 通过训练一个价值函数来告诉我们智能体在每个状态下将获得的期望回报,并使用这个函数来定义我们的策略:基于价值的方法。
-
最后,我们谈到深度强化学习,因为我们引入了**深度神经网络来估计要采取的动作(基于策略)或估计状态的价值(基于价值)**因此得名“深度”。
结论
恭喜你!本单元完成。这是你学习旅程中的一个重要里程碑。非常祝贺你完成本教程的这一部分。🥳
如果某些内容仍让你感到困惑,请放心,这完全正常。我和所有研究强化学习(RL)的同行都经历过类似的困惑。
在继续之前,请确保你已经深入理解并掌握了这些概念。在我们探索更多有趣内容之前,打下坚实的基础是至关重要的。
在接下来的课程中,我们会重复使用并进一步解释这些术语。但最好是在进入下一个单元之前先了解它们。
接下来,在‘奖励’单元中,我们将通过训练 Huggy 进行棍子叼取游戏来巩固我们的学习成果。然后你就可以和他一起玩🤗。
保持热爱,奔赴山海🤗
补充阅读
如果你想深入了解,请参考以下可选阅读材料。
深度强化学习
- 强化学习导论,Richard Sutton 和 Andrew G. Barto 第 1、2 和 3 章
- 深度 RL 系列基础、L1 MDP、精确求解方法、Pieter Abbeel 的 Max-ent RL
- OpenAI 的 Spinning Up RL 第 1 部分:RL 的关键概念