7.3_设计多智能体系统

在本节中,你将观看由 Brian Douglas 制作的关于多智能体的优秀介绍视频。你可以在这里找到视频。

在这个视频中,Brian 讲解了如何设计多智能体系统。他特别以一个吸尘器多智能体场景为例,探讨了它们如何相互合作。

我们有两种设计多智能体强化学习系统(MARL)的解决方案。

分布式系统

Decentralized
来源: 多智能体强化学习介绍

在分布式学习中,每个智能体都独立地进行训练,不受其他智能体的影响。在给定的示例中,每个吸尘器学习尽可能清洁尽可能多的地方,而不关心其他吸尘器(智能体)的行为

好处在于,由于智能体之间不共享信息,这些吸尘器可以像训练单个智能体一样进行设计和训练。

这里的思想是,我们的训练智能体将其他智能体视为环境动力学的一部分,而不是智能体。

然而,这种技术的一个重大缺点是它将使环境非稳态,因为随着其他智能体也在环境中进行交互,底层的马尔可夫决策过程会随时间改变。这对于许多强化学习算法是有问题的,因为它们无法在非稳态环境中达到全局最优

集中式方法

Centralized
来源: 多智能体强化学习介绍

在这种架构中,我们有一个高级过程来收集智能体的经验,即经验缓冲区。我们将利用这些经验来学习一个共同的策略

例如,在吸尘器系统中,观察将包括:

我们利用这些共同的经验来训练一个策略,以整体上以最有益的方式移动所有三个机器人。因此,每个机器人都从共同的经验中学习。而且,由于所有智能体被视为一个更大的整体,它们知道其他智能体策略的变化(因为它与它们的策略相同),所以我们拥有一个稳态的环境。

如果我们回顾一下: