1.2_什么是强化学习
什么是强化学习?
要了解强化学习,让我们从宏观角度开始。
图
强化学习背后的想法是,智能体(AI)将在环境中通过 交互(通过试错)和 接收的奖励 (负面或正面)执行动作。
从与环境的互动中学习来自我们的自然经验。
例如,想象一下,将你的弟弟放在他从未玩过的视频游戏前,给他一个控制器,然后让他一个人呆着。
你的弟弟将与环境(视频游戏)通过按压右键(动作)进行互动。他获得了一枚金币,并获得了 +1 的奖励。这是正面的,因为他知道在游戏中 必须获得金币 。
"然而,当他再次向 按右键 时,他撞到了一个敌人。由于他刚刚死了,因此这是一个 -1 的奖励。"
"通过不断试验与环境的互动,你的兄弟明白了:在这个环境中,他必须获得金币,但同时要避开敌人。
没有任何监督下,孩子会越来越擅长玩游戏。
这就是人类和动物学习的方式,通过互动。 强化学习只是一种 从动作中学习的计算方法。
正式定义
如果我们现在采用正式定义:
但是强化学习是如何工作的呢?