7.3_设计多智能体系统

在本节中，你将观看由 Brian Douglas 制作的关于多智能体的优秀介绍视频。你可以在这里找到视频。

在这个视频中，Brian 讲解了如何设计多智能体系统。他特别以一个吸尘器多智能体场景为例，探讨了它们如何相互合作。

我们有两种设计多智能体强化学习系统（MARL）的解决方案。

分布式系统

在分布式学习中，每个智能体都独立地进行训练，不受其他智能体的影响。在给定的示例中，每个吸尘器学习尽可能清洁尽可能多的地方，而不关心其他吸尘器（智能体）的行为。

好处在于，由于智能体之间不共享信息，这些吸尘器可以像训练单个智能体一样进行设计和训练。

这里的思想是，我们的训练智能体将其他智能体视为环境动力学的一部分，而不是智能体。

然而，这种技术的一个重大缺点是它将使环境非稳态，因为随着其他智能体也在环境中进行交互，底层的马尔可夫决策过程会随时间改变。这对于许多强化学习算法是有问题的，因为它们无法在非稳态环境中达到全局最优。

在这种架构中，我们有一个高级过程来收集智能体的经验，即经验缓冲区。我们将利用这些经验来学习一个共同的策略。

例如，在吸尘器系统中，观察将包括：

我们利用这些共同的经验来训练一个策略，以整体上以最有益的方式移动所有三个机器人。因此，每个机器人都从共同的经验中学习。而且，由于所有智能体被视为一个更大的整体，它们知道其他智能体策略的变化（因为它与它们的策略相同），所以我们拥有一个稳态的环境。

如果我们回顾一下：

在分布式方法中，我们将所有智能体独立地对待，不考虑其他智能体的存在。
- 在这种情况下，所有智能体将其他智能体视为环境的一部分。
- 这是一个非稳态环境条件，所以无法保证收敛。
在集中式方法中：
- 从所有智能体中学习一个单一策略。
- 输入为环境的当前状态和策略输出的联合动作。
- 奖励是全局的。