4.6_结论
恭喜你完成了本单元的学习!这是非常多信息的一个单元。祝贺您成功地使用 PyTorch 从头开始编写了你的第一个深度强化学习智能体,并分享到了 Hub 🥳。
如果你想进一步改进实现以处理更复杂的环境(例如将网络换成卷积神经网络来把帧当成观测),请随时迭代此单元。
在下一个单元中,我们将学习更多关于 Unity MLAgents 的内容,通过训练在 Unity 环境中的智能体,你将准备好参加 AI vs AI 挑战,训练你的智能体在雪球战和足球比赛中与其他智能体竞争。
听起来很有趣吧?下次见!
最后我们很乐意去听听你对于该课程的想法来帮助我们提升他。如果你有任何反馈请 👉 填写表格。
期待在第五单元再见!🔥
保持热爱,奔赴山海 🤗
补充阅读
如果你想深入了解,请参考以下可选阅读材料。
策略优化介绍
策略梯度
- https://johnwlambert.github.io/policy-gradients/
- RL - 策略梯度解释
- 第十三章, 策略梯度理论; 强化学习, Richard Sutton 和 Andrew G. Barto 介绍