离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战,仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,中山大学计算机学院、美团履约平台技术部开展了学术合作项目,并取得了一些的成果,希望分享给大家。
-
合作型马尔可夫博弈
-
定义与基本概念
-
IGM原则与值分解
-
离线MARL中的行为正则化马尔可夫博弈
-
样本内顺序策略优化
-
样本内顺序策略优化的数学推导
-
最大熵行为正则化马尔可夫博弈
-
算法细节
-
策略评估
-
策略改进
-
实际应用及实现细节
-
实验验证
-
桥博弈的实验结果
-
星际争霸II微操作基准测试的实验结果
-
消融研究
-
总结
离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。相比于单智能体情况,多智能体环境涉及到大规模的联合状态——动作空间和多智能体间的耦合行为,这给离线策略优化带来了额外的复杂性。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居、机器人协作、智能调度决策等方面展现了巨大的应用潜力。但是离线MARL较单智能体情况下更加复杂,其涉及庞大的联合状态-动作空间和多智能体间的复杂互动行为,这使得离线策略优化成为一项艰巨的任务。
离线MARL面临的主要挑战包括:一是如何有效应对分布偏移问题,即在策略评估过程中,分布外(OOD)样本可能导致误差积累;二是在多智能体环境下,协调多个智能体的行为显得尤为困难。现有的离线MARL方法尽管取得了一些进展,但仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,中山大学计算机学院、美团履约平台技术部开展了学术合作项目,联合提出了一种新颖的离线MARL算法——样本内顺序策略优化(In-Sample Sequential Policy Optimization, InSPO),该方法通过顺序更新每个智能体的策略,避免选择OOD联合动作,同时增强了智能体之间的协调性。
合作型马尔可夫博弈
| 定义与基本概念
| IGM原则与值分解
| 离线MARL中的行为正则化马尔可夫博弈
通过引入这些基础概念和原理,合作型马尔可夫博弈为多智能体系统的行为建模和优化提供了一个强大的工具。尤其在离线环境中,结合行为正则化和值分解方法,可以有效解决多智能体间的协调问题,并提高策略的整体表现。
样本内顺序策略优化
在离线多智能体强化学习(MARL)中,策略的优化往往面临着分布外(OOD)联合动作和局部最优解问题。为了应对这些挑战,研究团队提出了一种创新的方法——样本内顺序策略优化(In-Sample Sequential Policy Optimization, InSPO)。该方法在行为正则化马尔可夫博弈框架下进行,结合了逆KL散度和最大熵正则化,旨在通过顺序更新每个智能体的策略,避免选择OOD联合动作,同时增强智能体之间的协调。
| 样本内顺序策略优化的数学推导
InSPO方法的核心在于通过逆KL散度进行行为正则化,从而确保学习到的策略与行为策略共享相同的支撑集,避免选择分布外的动作。具体来说,目标函数中的逆KL散度项可以分解为各个智能体的独立项,这使得顺序更新每个智能体的策略成为可能。数学上通过使用Karush-Kuhn-Tucker(KKT)条件,推导出目标函数的闭式解,从而实现样本内学习。最终的优化目标为最小化KL散度,以确保策略更新的有效性和一致性。
| 最大熵行为正则化马尔可夫博弈
通过上述方法,样本内顺序策略优化不仅有效解决了离线MARL中的OOD联合动作问题,还通过策略熵的引入,显著提高了策略的探索能力和全局最优解的发现概率。
算法细节
算法 1: InSPO 的步骤
-
输入:离线数据集D、初始策略和初始Q函数。 -
输出:最终策略。 -
首先,通过简单的行为克隆方法计算出行为策略。 -
接下来,开始迭代优化。在每一轮迭代中,先计算出当前Q函数。 -
随机抽取一个智能体的排列,并依次更新每个智能体的策略。 -
对于每个智能体,使用推导出的目标函数进行策略更新。 -
重复上述过程,直到达到预定的迭代次数K。
这种顺序更新的策略,确保了每一步的策略优化都是在样本内进行的,避免了分布外动作的选择,提高了策略的稳定性和有效性。
| 策略评估
策略评估是InSPO算法中的一个关键步骤。根据更新的Q函数,计算当前策略的期望回报。在多智能体环境中,由于联合动作空间的庞大,研究团队采用了局部Q函数来进行近似。在策略评估过程中,需要顺序地更新每个智能体的局部Q函数,使其能反映最新的策略信息。具体的目标函数包括一个权重项,用于平衡策略的探索和利用。此外,为了降低重要性采样比率的高方差,InSPO采用了重要性重采样技术,通过概率比例重采样构建新的数据集,从而稳定算法的训练效果。
| 策略改进
在获得优化的局部Q函数后,接下来就是策略改进步骤。通过最小化KL散度,InSPO能够在保持行为策略特性的同时,逐步优化每个智能体的策略。在具体操作中,使用推导出的目标函数来指导每个智能体的策略更新,这一过程确保了策略的收敛性和改进性。
| 实际应用及实现细节
-
局部Q函数的优化:为了避免联合动作空间的指数级增长,他们使用局部Q函数来近似全局Q函数,并通过顺序更新的方法逐步优化每个智能体的局部Q函数。 -
重要性重采样:通过重要性重采样技术,构建新的数据集,降低采样比率的方差,提高训练的稳定性。 -
自动调节温度参数α:为了找到合适的保守程度,他们实现了自动调节α的机制,根据目标值进行动态调整,从而进一步提高性能。
这些优化措施使得InSPO在处理复杂的多智能体任务时,能够保持高效的性能和良好的收敛性。通过这些实际应用和实现细节,InSPO展现了其在离线MARL中的巨大潜力和应用价值。
实验验证
在M-NE博弈中,研究团队评估了InSPO避免收敛至局部最优的能力。实验使用两个数据集:一个是由均匀策略收集的平衡数据集,另一个是由接近局部最优的策略收集的不平衡数据集。结果显示,在平衡数据集上,大多数算法都能找到全局最优解,而在不平衡数据集上,只有InSPO正确识别出全局最优解。这表明,在存在多个局部最优解的环境中,数据集分布对算法收敛性有显著影响。InSPO通过全面探索数据集,避免了次优解的影响,展现了其强大的全局最优解识别能力。
| 桥博弈的实验结果
| 星际争霸II微操作基准测试的实验结果
| 消融研究
通过这些实验验证,InSPO展现了其在解决离线MARL中的局部最优收敛问题、增强策略探索能力和提高全局最优解识别能力方面的优势。实验结果不仅证明了InSPO的理论可行性,还展示了其在实际应用中的强大潜力。
总结
-
算法扩展与优化:未来可以考虑将InSPO与其他先进的MARL算法相结合,进一步提升策略优化的效果。同时,研究如何在更大规模、更复杂的环境中实现高效的策略优化,也是一个重要的方向。 -
数据集增强与生成:在离线MARL中,数据集的质量和分布对算法性能有着直接影响。未来可以探索通过生成对抗网络(GANs)等技术生成高质量的数据集,从而改善策略学习的效果。 -
多模态奖励图谱的应对:在存在多个局部最优解的环境中,如何更有效地识别和收敛到全局最优解,仍是一个具有挑战性的问题。研究新的正则化方法和优化策略,能够进一步提升InSPO的鲁棒性。 -
实际应用与验证:将InSPO应用到更多实际场景中,如智能调度、智能交通系统、自动驾驶、智能制造等,验证其在真实环境中的性能和稳定性,将是未来的重要研究方向。
---------- END ----------
美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,依托美团丰富的业务场景、数据资源和真实的产业问题,开放创新,汇聚向上的力量,围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等领域,共同探索前沿科技和产业焦点宏观问题,促进产学研合作交流和成果转化,推动优秀人才培养。面向未来,我们期待能与更多高校和科研院所的老师和同学们进行合作。欢迎老师和同学们发送邮件至:[email protected]。
原文始发于微信公众号(美团技术团队):行为正则化与顺序策略优化结合的离线多智能体学习算法
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论