1.2_什么是强化学习

什么是强化学习?

要了解强化学习,让我们从宏观角度开始。

强化学习背后的想法是,智能体(AI)将在环境中通过 交互(通过试错)和 接收的奖励 (负面或正面)执行动作。

从与环境的互动中学习来自我们的自然经验。

例如,想象一下,将你的弟弟放在他从未玩过的视频游戏前,给他一个控制器,然后让他一个人呆着。

Illustration_1

你的弟弟将与环境(视频游戏)通过按压右键(动作)进行互动。他获得了一枚金币,并获得了 +1 的奖励。这是正面的,因为他知道在游戏中 必须获得金币

Illustration_2

"然而,当他再次向 按右键 时,他撞到了一个敌人。由于他刚刚死了,因此这是一个 -1 的奖励。"

Illustration_3

"通过不断试验与环境的互动,你的兄弟明白了:在这个环境中,他必须获得金币,但同时要避开敌人。

没有任何监督下,孩子会越来越擅长玩游戏。

这就是人类和动物学习的方式,通过互动。 强化学习只是一种 从动作中学习的计算方法。

正式定义

如果我们现在采用正式定义:

强化学习是一种框架,该框架构建智能体与环境交互,让智能体通过试错和获得唯一的反馈(正面或负面奖励)来解决控制任务(也称为决策问题)。

但是强化学习是如何工作的呢?