2.5_学习进展回顾

在我们深入学习 Q-learning 算法前，先总结一下我们之前都学了什么。

我们学了两种基于价值的函数：

状态价值函数：如果智能体在一个给定的状态开始行动，并在之后的行动中一直遵循该策略，则输出该状态的期望回报。
动作价值函数：如果智能体在给定的状态开始采取一个给定的行为，并在之后的行动中一直遵循该策略，则输出该状态的期望回报。
在基于价值的方法中，相比于学习策略，我们手动定义策略并且学习一个价值函数。如果我们有一个最优价值函数，那就有了一个最优的策略。

还学了两种可以学习价值函数的策略的方法：

使用蒙特卡洛方法时，我们从完整的一轮游戏中更新值函数，并且使用该轮游戏的真实、准确的折扣回报。
使用TD学习方法时，我们从一个时间步中更新值函数，因此我们用一个被称为TD目标的估计回报替换我们没有的G_t。

学习进展测验

最好的学习方法是对自己进行测试。这能避免过度自信并帮助我们找到需要加强的方面。

Q1: 找到最优策略的两种主要方法是什么？

<Question
choices={[
{
text: "基于策略的方法",
explain: "使用基于策略的方法，我们直接训练策略来学习在给定状态下采取哪种行动。",
correct: true
},
{
text: "基于随机的方法",
explain: ""
},
{
text: "基于价值的方法",
explain: "使用基于价值的方法，我们训练一个价值函数来学习哪些状态更有价值，并使用该价值函数来选择最优的动作。",
correct: true
},
{
text: "进化策略方法",
explain: ""
}
]}
/>

Q2: 什么是贝尔曼方程?

答案

贝尔曼方程是一个递归方程，其工作原理如下：我们不需要从每个状态的起点开始计算回报，而是可以将任意状态的价值视为:

Rt+1 + gamma * V(St+1)

即时奖励 + 之后状态的折扣价值。

Q3: 贝尔曼方程的每个部分的定义是什么?

Bellman equation quiz

答案

Bellman equation solution

Q4: 蒙特卡洛（Monte Carlo）方法和时序差分（Temporal Difference, 简称TD）学习方法之间的差异是什么?

<Question
choices={[
{
text: "在使用蒙特卡罗方法时,我们从一个完整的回合中更新价值函数",
explain: "",
correct: true
},
{
text: "在使用蒙特卡罗方法时,我们从一个时间步中更新价值函数",
explain: ""
},
{
text: "在使用TD方法时,我们从一个完整的回合中更新价值函数",
explain: ""
},
{
text: "在使用TD方法时,我们从一个时间步中更新价值函数",
explain: "",
correct: true
},
]}
/>

Q5: 时序差分算法中每一部分的定义是什么?

TD Learning exercise

答案

Q6: 蒙特卡洛算法中每一部分的定义是什么?

MC Learning exercise

答案

恭喜你完成了这个测验🥳，如果你错过了一些要点，花点时间再读一遍前面的部分，以加强你的知识（😏）。