2.9_总结

恭喜你完成了本章!这里包含了大量的信息,同时恭喜你完成了整个教程,你刚刚从零开始实现了你的第一个强化学习智能体,并在 Hub 上分享了它🥳。

当学习一种新的架构知识时,从零开始实现对理解其工作原理非常重要。

如果你对之前的某些部分仍然感到不解,这很正常,因为对于所有学习强化学习的人都是这样。

在继续学习之前,请确保你真的掌握了之前所学的知识。

在下一章中,我们将深入研究基于 Q-learning的第一个深度强化学习算法:深度 Q-learning。你将使用 RL-Baselines3 Zoo 训练一个 DQN 智能体来玩Atari游戏。

Atari environments

最后,我们非常希望了解你对于该课程的一些建议和看法,以及如何改进该课程使其更加通俗易懂。如果你有任何想法,请不要犹豫 👉 填写这个表格!

保持热爱,奔赴山海 🤗

补充阅读

如果你想更深入地学习,这些是可供选择的阅读材料。

蒙特卡洛与时序差分学习

深入了解蒙特卡洛和时序差分学习的资料:

Q 学习