多智能体强化学习
本帖最后由 keer_zu 于 2024-5-21 10:12 编辑Actor-Attention-Critic
多智能体强化学习的Actor-Attention-Critic算法
多智能体场景中的强化学习对现实世界的应用很重要,但它所面临的挑战超出了单智能体设置。我们提出了一种参与者-批评者算法,该算法在多智能体设置中训练分散策略,使用集中计算的批评者共享一个关注机制,该机制在每个时间步为每个智能体选择相关信息。与最近的方法相比,这种注意力机制可以在复杂的多智能体环境中实现更有效和可扩展的学习。我们的方法不仅适用于具有共享奖励的合作设置,也适用于个性化奖励设置,包括对抗设置,以及不提供全局状态的设置,并且它不假设代理的行动空间。因此,它足够灵活,可以应用于大多数多智能体学习问题。
页:
[1]