团队科研成果分享-29

admin

102674
文章

87
评论

2023年12月18日01:16:00评论23 views字数 4532阅读15分6秒阅读模式

团队科研成果分享-29

团队科研成果分享

2023.12.11-2023.12.17

标题: Distributional Soft Actor-Critic-Based Multi-AUV Cooperative Pursuit for Maritime Security Protection

期刊: IEEE Transactions on Intelligent Transportation Systems, 2023

作者: Yun Hou, Guangjie Han, Fan Zhang, Chuan Lin, Jinlin Peng, Li Liu.

分享人: 河海大学——侯云

研究背景

BACKGROUND

研究背景

近年来，非法水下无人航行器（UUVs）对海洋安全构成了严重威胁，尤其是在水下安全方面。为了有效地追击这些UUVs，传统的追击方法主要基于已知的环境动力学，但这些方法在复杂和不可预测的水下环境中受到局限。本研究提出了一种新型的在线决策技术——多智能体分布式软演员-评论家（MADA），以应对水下协作追击问题。MADA是一种基于多智能体强化学习的控制框架，能够将自主水下航行器（AUV）的观测映射到追击行动上。通过结合分布式软演员-评论家和课程学习，MADA提高了多AUV在追击UUVs中的成功率。实验结果表明，MADA能够获得更好的协作追击策略。

关键技术

TECHNOLOGY

关键技术

在这篇论文中，提出了一种基于多智能体分布式软演员-评论家（MADA）的算法，用于多自主水下航行器（AUV）的协同追击任务。MADA是基于分布式软演员-评论家（DSAC）和中心化训练、分布式执行（CTDE）框架的多智能体强化学习算法。该算法通过引入课程学习的概念，逐步增加训练难度，提高MADA的训练效率。实验结果表明，MADA在动态环境中解决复杂的协同追击问题方面更有效。本文的创新和贡献包括：

(1) 提出MADA算法，优化多智能体协同追击问题；

(2) 针对离散问题提出DSAC的离散版本，并与CTDE框架结合；

(3) 应用课程学习来提高MADA的训练效率。

算法介绍

ALGORITHMS

算法介绍

（1）问题建模

本文的主题是海上安全与保护。具体来说，本文提出了一个系统，在该系统中，N个AUV追赶三维空间中移动更快的未经授权的AUV。如图1所示，追击AUV在水下环境中是随机分布的，一旦检测到水中有未经授权的AUV，就开始追击。追击成功与否取决于追击水下机器人与逃逸水下机器人之间的距离，该距离必须在规定的时间范围内。本文做了几个假设，包括:

(1)预先定位的水下传感器提供广泛的海洋监测，以识别未经授权的AUV并与追击AUV通信。

(2)每艘追击AUV具有相同的动力学特性，并配备近程目标探测传感器，该传感器利用雷达感知威胁区域与规避器的相对位置。

(3)追赶者和逃避者的移动速度分别为vp和ve，其中ve大于vp。

(4)环境中存在移动和静态障碍物，AUV的移动速度总是快于移动障碍物。

(5)AUV可以相互通信，识别其他AUV，通信延迟短。

团队科研成果分享-29

图1 水域安全防护场景

MADRL框架涉及三种类型的代理:合作、竞争和混合。本研究的重点是追求整体回报最大化的追求者，特别是他们成功追逃者的能力。在本研究中，每个AUV都被认为是一个具有最大化总体奖励目标的智能体。因此，本文定义了马尔可夫博弈的基本组成部分，包括代理、状态空间、观察空间和奖励函数。

观测空间代表了AUV感知到的环境信息，这是DRL算法生成决策和评估长期收益的基础。观察空间设计的好坏直接决定了强化学习算法能否收敛、收敛速度和最终性能。观测空间定义如下:

团队科研成果分享-29

对动作空间进行离散化处理，节省了计算量，提高了模型训练效率。AUV运动表示如下:

团队科研成果分享-29

在协同追击问题中，水下机器人必须协同作战才能捕获目标。为了设计一个合适的奖励函数，本文考虑了三个组成部分:距离奖励、避免碰撞奖励和成功奖励。

为了激励AUV减少自身与逃避者之间的距离，本文考虑了距离奖励组件。具体来说，距离奖励计算为agent与逃避者之间当前距离与之前距离的差值。这种奖励随着AUV接近逃避者而增加。数学上，距离奖励可以定义为:

团队科研成果分享-29

式中d^t_{i,E}和d^{t-1}_{i,E}分别表示当前时刻和前一时刻追捕者和逃避者之间的距离。

为了防止AUV与障碍物发生碰撞，本文设计了一个避碰奖励。如果发生碰撞，就要受到处罚。当AUV与障碍物或其他AUV之间的距离小于由势场决定的安全距离时，提供负奖励来指导AUV学习避碰行为。这种策略促使AUV与障碍物和其他AUV保持安全距离。避碰奖励定义如下:

团队科研成果分享-29

成功捕获逃税者的奖励应该给予agent，这可以作为agent完成任务的激励。成功奖励定义如下:

团队科研成果分享-29

综合以上三部分，本文可以得到整体的奖励函数，如下:

团队科研成果分享-29

当每个独立的AUV奖励最大化时，整个系统的奖励也就最大化。值得注意的是，虽然本文在奖励函数中使用了特定的值，但这些值并不是模式化的，可以根据特定需求进行调整。

（2）合作追击任务的系统架构

团队科研成果分享-29

图2 环境探索和训练数据集的收集

为了利用MADRL解决AUV的协同追击问题，对未知环境的探索是必不可少的。如图2所示，决策网络决定每个AUV的动作。在模拟过程中，对每个AUV的观察情况进行观察和测量，并通过评估其行为来产生奖励。然后，体验数据被存储在包含观察、行动、相应奖励和下一次观察的体验池中。经验池是AUV追击经验的存储库，形成了一个训练数据集，用于迭代改进AUV控制模型。

该决策网络可以实现多个AUV的联合训练。当AUV协同探索环境时，每个AUV从不同的初始状态开始探索，减少了探索体验的冗余。这一过程使多个AUV能够更快地探索不同的运动状态，并以更快的速度积累训练数据。利用MADRL对多个AUV进行训练，使它们能够学习如何有效地合作。经过集中训练后，训练好的行动者模型可以直接部署到相应的追击器上，追击器可以根据当前观察情况执行分散的协同追击任务。

在本节中，本文提出了对原始DSAC的改进，引入了适用于离散动作空间的DSAC算法的变体，称为DSAC-discrete。

(1) DSAC-Discrete的软值分布函数输出每个动作的状态-动作收益的分布函数。

(2)在DSAC-Discrete模型中，策略网络不再需要生成动作分布的均值和协方差。它现在被设计成直接呈现与每个动作相关的概率。为了保持合理的概率分布，在策略网络的最后一层实现了softmax函数。

(3)在连续版本的DSAC中，为了最小化Eq.(5)中所述的损失函数，需要将从重放缓冲区中采样的动作插入DSAC中，形成软状态值函数的蒙特卡罗估计。然而，由于本文的动作空间现在是离散的，本文可以完全恢复动作分布。这种方法减少了本文估计中涉及的方差。计算可以变换为:

团队科研成果分享-29

（4）为了最小化，需要重新参数化技术，以使梯度能够通过期望操作符。然而，由于策略现在输出一个精确的动作分布，期望可以直接计算，而不需要重新参数化技术。因此，策略变为:

团队科研成果分享-29

（5）为了减小估算温度损失的方差，对计算方法进行了修改。温度目标更新为:

团队科研成果分享-29

（3）MADA训练模式与课程学习

一个合适的多智能体训练框架是保证多智能体训练稳定收敛的关键。为了解决MADRL中的非平稳性和可扩展性问题，本文提出了遵循CTDE范式的MADA方法。这种方法为每个智能体配备一个DSAC -离散模型，该模型包括两个完全连接的神经网络。第一个网络称为Actor网络，将当前状态映射到行为的分布，而第二个网络称为Critic网络，将状态映射到软状态-行为回报的分布函数。基于Critic网络的输出对行为体网络进行优化，Critic网络根据全局信息引导每个行为体改进其Actor网络。Target Actor网络和Target Critic网络也被用来稳定学习过程。CTDE范例有助于克服MADRL的非平稳和可扩展问题。有关算法框架的详细说明，请参见图3。

团队科研成果分享-29

图3 MADA的详细结构

实验结果

EXPERIMENTS

实验结果

1）实验设置

实验使用Pytorch和gym模块在Mac OS 10.15.4系统上进行，该系统采用Intel酷睿i7 CPU、GeForce1660Ti显卡和16G RAM。实验场景为100m × 100m × 100m的三维空间。在模拟环境中随机分布4个追逐者、1个躲避者和5个静态球形障碍物，这些障碍物被认为是半径为rad的球体，用于算法的训练。在规定的时间内，当任何追击者和逃避者之间的距离小于攻击范围d_{attack}时，认为任务成功。

在MADA框架下，使用多层感知器模型构建演员和评论家网络。采用两个全连接的35 × 64 × 64 × 6神经网络构建参与者网络和目标参与者网络。采用全连接的178 × 64 × 64 × 64 × 2神经网络构建临界网络和目标临界网络。当追击者成功捕获逃避者或达到最大时隙数时，当前回合结束。每一轮结束时，环境重置，为下一轮做好准备。采用Adam优化器计算神经网络参数。实验结果为三次实验的平均值。

2）实验结果

批大小是一个重要的超参数，它会影响算法的训练速度和收敛性。更大的批处理大小可能导致更快的收敛，但也可能增加内存和计算资源需求。本文进行了额外的实验来研究批大小对结果的影响，如图4所示。当批大小为512时，算法收敛速度快，但收敛到0.82。当批大小为1024时，算法收敛于7500集，收敛到1左右。当批大小为2048时，算法收敛于6200集，收敛到1左右。考虑到内存和计算资源的需求，在实验中将批大小设置为1024。

团队科研成果分享-29

图4 批次大小对算法的影响

图5记录了50个测试实验的追击成功率和平均追击时间。随着训练时间的增加，MADA和MASAC最终可以达到95% ~ 97%的成功率，MAPPO的成功率约为82% ~ 87%。MADA训练的追击员追击成功率最高。这意味着MADA可以为追求者提供更好的追捕策略。

团队科研成果分享-29

图5 追击者的成功率

下图比较了不同算法的时间效率。本文的结果表明，MADA每50次迭代的平均耗时明显低于madpg和MASAC。这是因为MADA可以完全恢复动作分布，从而不需要蒙特卡罗估计，可以直接计算期望分布，这与MADDPG不同。此外，MADA只使用一个批评家网络，而MASAC使用两个批评家网络，这大大减少了训练所需的计算资源。

团队科研成果分享-29

图6 时间效率

总结

CONCLUSION

总结

本文将海上安全防护问题建模为三维水下环境下的协同追击问题。提出了一种基于MADRL的在线决策技术。为了解决强化学习算法中的高估问题，提出了基于值分布概念的MADA算法。构造了一个面向控制的框架来实现多智能体协同决策。随后，引入课程学习的训练方法，通过逐步增加场景的难度来提高智能体的学习率。实验结果表明，通过引入值分布函数和课程学习，智能体可以在较短的时间内获得较高的捕获率。

本文计划将基于DRL的追击策略部署到真实水下场景的AUV中，并对算法性能进行综合评估。这就要求本文考虑AUV数据采集和实时通信的关键技术(如软件定义网络、水声通信)。

END

团队科研成果分享-29

扫描二维码关注我们

==河海大学网络与安全实验室==

微信搜索：Hohai_Network

联系QQ：1084561742

责任编辑：何宇

原文始发于微信公众号（网络与安全实验室）：团队科研成果分享-29

左青龙
微信扫一扫

右白虎
微信扫一扫

团队科研成果分享-29

G.O.S.S.I.P 资源分享 2024-04-30 EXPLOIT.EDUCATION

【AI速读】深度剖析与降低OSINT脆弱性

《上飞机！(1)》

确定风险优先级的最佳方法 - 第 2 部分

VMware安装华为操作系统openEuler

手上3个offer怎么选，深信服的技服、奇安信的安全服务、绿盟的渗透工程师

面试经验分享 | 某普科技网络安全工程师

理解数据

我的妈妈

G.O.S.S.I.P 阅读推荐 2024-04-29 利用Fuzzing降低静态分析的误报

发表评论

在线咨询

微信