1.5_探索利用权衡

探索/利用权衡

最后,在研究解决强化学习问题的不同方法之前,我们必须讨论一个更重要的主题:探索/利用

请记住,我们的 RL 智能体的目标是最大化期望累积奖励。然而,我们可能会陷入一个常见的陷阱

让我们举个例子:

Exploration

在这个游戏中,我们的老鼠可以拥有无限数量的小奶酪(每个 +1)。但是在迷宫的顶端,有一大笔奶酪(+1000)。

然而,如果我们只专注于利用,我们的智能体将永远无法取得巨量奶酪。相反,它只会利用最近的奖励来源,即使这个来源很小(利用)。

但如果我们的智能体进行一点点探索,它就可以发现大奖励(那堆大奶酪)。

这就是我们所说的探索/利用权衡。我们需要平衡探索环境的程度和利用我们对环境的了解的程度。

因此,我们必须定义一个有助于处理这种权衡的规则。我们将在以后的单元中看到处理它的不同方法。

如果还是一头雾水,想想一个真正的问题:挑选餐厅:

Exploration
来源:伯克利人工智能课程

回顾一下:
Exploration Exploitation Tradeoff