打印
[少儿编程]

多智能体强化学习

[复制链接]
620|1
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
keer_zu|  楼主 | 2024-5-21 10:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
沙发
keer_zu|  楼主 | 2024-5-21 10:38 | 只看该作者
多智能体场景中的强化学习对现实世界的应用很重要,但它所面临的挑战超出了单智能体设置。我们提出了一种参与者-批评者算法,该算法在多智能体设置中训练分散策略,使用集中计算的批评者共享一个关注机制,该机制在每个时间步为每个智能体选择相关信息。与最近的方法相比,这种注意力机制可以在复杂的多智能体环境中实现更有效和可扩展的学习。我们的方法不仅适用于具有共享奖励的合作设置,也适用于个性化奖励设置,包括对抗设置,以及不提供全局状态的设置,并且它不假设代理的行动空间。因此,它足够灵活,可以应用于大多数多智能体学习问题。

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

1349

主题

12425

帖子

53

粉丝