9.6_决策 Transformer
决策 Transformer 模型是由Chen L.等人在 "Decision Transformer: Reinforcement Learning via Sequence Modeling" 中提出的。它将强化学习抽象为一个条件序列建模问题。
其主要思想是,不是使用强化学习方法训练策略,如拟合价值函数,告诉我们应该采取什么行动来最大化收益(累计奖励),而是使用序列建模算法(Transformer),根据所需的回报、过去的状态和行动,生成未来的行动以实现所需的回报。
它是一个自回归模型,以所需的回报、过去的状态和行动为条件,生成未来的行动,以实现所需的回报。
这是对强化学习范式的完全转变,因为我们使用生成轨迹建模(建模状态、行动和奖励序列的联合分布)来代替传统的RL算法。这意味着在决策Transformer中,我们不是最大化回报,而是生成一系列未来的行动,以实现所需的回报。
🤗Transformers 团队将决策 Transformer(离线强化学习方法)集成到了库中,以及 Hugging Face Hub。
了解决策 Transformer
要了解更多关于决策 Transformer 的信息,你应该阅读我们在 Hugging Face 上介绍决策 Transformer 的博客文章。
训练你的第一个决策 Transformer
现在,你已经通过Hugging Face 上介绍决策 Transformer 的博客文章了解了决策 Transformer 的工作原理。你准备好学习如何从头开始训练你的第一个离线决策 Transformer 模型,让half-cheetah奔跑了。
在这里开始教程 👉 https://huggingface.co/blog/train-decision-transformers
补充阅读
对于更多信息,我们建议你查看以下资源:
作者
本节由 Edward Beeching 编写。