Apocalypse
Search
CTRL + K
Apocalypse
Search
CTRL + K
Brainstorm
God64
启示录2
RL_Column
HF_chapter1
1.1_简介
1.2_什么是强化学习
1.3_强化学习框架
1.4_两种任务类型
1.5_探索利用权衡
1.6_两种主要方法
1.7_深度
1.8_总结
HF_chapter2
2.1_Q-learning算法介绍
2.2_两种基于价值的方法
2.3_贝尔曼方程_简化价值计算
2.4_蒙特卡洛 VS 时序差分学习
2.5_学习进展回顾
2.6_初探Q-Learning
2.7_Q-learning 算法实例
2.8_第二个测验
2.9_总结
HF_chapter3
3.1_深度 Q-learning
3.2_从 Q-learning到深度 Q-learning
3.3_深度 Q 网络 (DQN)
3.4_深度 Q-learning 算法
3.5_总结
HF_chapter4
4.1_介绍
4.2_什么是基于策略的方法?
4.3_策略梯度理论的优缺点
4.4_深入了解策略梯度方法
4.5_策略梯度定理
4.6_结论
HF_chapter5
5.1_Unity ML-Agents 介绍
5.2_Unity ML_Agents怎样工作
5.3_SnowballTarget 环境
5.4_Pyramids 环境
5.5_好奇心机制
5.6结论
HF_chapter6
6.1_介绍
6.2_Reinforce 中的方差问题
6.3_优势演员--评论员(A2C)方法
6.4_总结
HF_chapter7
7.1_介绍
7.2_多智能体强化学习 (MARL) 介绍
7.3_设计多智能体系统
7.4_自我对弈:在对抗性游戏中训练竞争智能体的经典技术
7.5_总结
HF_chapter8
8.1_介绍
8.2_PPO 的直观理解
8.3_裁剪替代目标函数简介
8.4_裁剪替代目标函数可视化
8.5_补充阅读
HF_chapter9
9.1_介绍
9.2_基于模型的强化学习 (MBRL)
9.3_离线与在线强化学习
9.5_RLHF
9.6_决策 Transformer
9.7_RL 中的语言模型
9.8_强化学习的(自动)课程学习
9.9_尝试有趣环境
Godot RL 智能体
RL 文档介绍
词汇表
启示录
8.5_补充阅读
如果你想更深入了解的话,这里有一些
可选读物
。
关于 PPO 解释
由 Daniel Bick 所撰写的关于近端策略优化的连贯、独立解释
理解强化学习中近端优化策略算法的方法
深度强化学习基础系列, Pieter Abbeel 写的关于 L4 TRPO 和 PPO
OpenAI PPO 博文
Spinning Up RL PPO
近端优化策略算法的论文
PPO 操作细节
PPO 的 37 个实现细节
第一部分,共三部分—— PPO 实现:11 个核心实现细节
重要性采样
重要性采样解释