9.8_强化学习的（自动）课程学习

虽然本课程中介绍的大部分强化学习方法在实践中表现良好，但在某些情况下，仅使用这些方法可能会失败。例如，在以下情况下可能会出现这种情况：

学习任务很困难，需要逐步获取技能（例如，当希望使双足机器人学会穿过困难的障碍时，它必须先学会站立，然后行走，然后可能跳跃...）
环境存在变化（影响难度），而希望自己的智能体能够对其鲁棒性优化。

在这些情况下，采用（自动）课程学习的方法可能是有益的。

在这种情况下，似乎需要向我们的强化学习智能体提供不同的任务，并将它们组织起来，以使智能体逐步习得技能。这种方法被称为课程学习，通常涉及手动设计的课程（或按照特定顺序组织的任务集合）。在实践中，我们可以控制环境的生成、初始状态，或者使用自我对抗（Self-Play）来控制提供给强化学习智能体的对手水平。

由于设计这样的课程并不总是简单明了的，**自动课程学习（Automatic Curriculum Learning，ACL）**领域提出了一种学习如何创建任务组织的方法，以最大化强化学习智能体的性能。Portelas 等人将 ACL 定义为：

...一种机制的集合，通过学习调整学习情境的选择，自动调整训练数据的分布，以适应强化学习智能体的能力。

以 OpenAI 为例，他们使用了域随机化（对环境进行随机变化）来让机械手解决魔方问题。

最后，你可以通过控制环境变化或甚至绘制地形来调整在 TeachMyAgent 基准测试中训练的智能体的鲁棒性。你可以在这里进行操作。👇

9.8_强化学习的（自动）课程学习

补充阅读

领域概述

最近的理论

作者