4.6_结论

恭喜你完成了本单元的学习!这是非常多信息的一个单元。祝贺您成功地使用 PyTorch 从头开始编写了你的第一个深度强化学习智能体,并分享到了 Hub 🥳。

如果你想进一步改进实现以处理更复杂的环境(例如将网络换成卷积神经网络来把帧当成观测),请随时迭代此单元。

在下一个单元中,我们将学习更多关于 Unity MLAgents 的内容,通过训练在 Unity 环境中的智能体,你将准备好参加 AI vs AI 挑战,训练你的智能体在雪球战和足球比赛中与其他智能体竞争

听起来很有趣吧?下次见!

最后我们很乐意去听听你对于该课程的想法来帮助我们提升他。如果你有任何反馈请 👉 填写表格

期待在第五单元再见!🔥

保持热爱,奔赴山海 🤗

补充阅读

如果你想深入了解,请参考以下可选阅读材料

策略优化介绍

策略梯度

执行