1.2_什么是强化学习

什么是强化学习？

要了解强化学习，让我们从宏观角度开始。

强化学习背后的想法是，智能体（AI）将在环境中通过交互（通过试错）和 接收的奖励 （负面或正面）执行动作。

从与环境的互动中学习来自我们的自然经验。

例如，想象一下，将你的弟弟放在他从未玩过的视频游戏前，给他一个控制器，然后让他一个人呆着。

你的弟弟将与环境（视频游戏）通过按压右键（动作）进行互动。他获得了一枚金币，并获得了 +1 的奖励。这是正面的，因为他知道在游戏中 必须获得金币 。

"然而，当他再次向 按右键 时，他撞到了一个敌人。由于他刚刚死了，因此这是一个 -1 的奖励。"

"通过不断试验与环境的互动，你的兄弟明白了：在这个环境中，他必须获得金币，但同时要避开敌人。

没有任何监督下，孩子会越来越擅长玩游戏。

这就是人类和动物学习的方式，通过互动。 强化学习只是一种 从动作中学习的计算方法。

如果我们现在采用正式定义：

强化学习是一种框架，该框架构建智能体与环境交互，让智能体通过试错和获得唯一的反馈（正面或负面奖励）来解决控制任务（也称为决策问题）。

但是强化学习是如何工作的呢？