摘 要:由于电磁信道的开放特征,存在恶意节点对正常数据流实施干扰,阻止合法接收者获得信息,进而截获并篡改数据,因此针对通信抗干扰的研究非常重要。传统的抗干扰方法采用单一抗干扰方式,并不能根据环境自适应改变抗干扰策略,因此难以在复杂通信环境中达到较好的抗干扰效果。为应对这些挑战,研究了基于深度强化学习(Deep Reinforcement Learning,DRL)的抗干扰通信模型,并搭建仿真系统,利用 DRL 算法实现智能抗干扰决策。仿真结果表明,提出的智能抗干扰决策能够在复杂环境下根据环境选择最优抗干扰方案,有效提升通信质量。
1.1 状态空间建模
由于无线通信技术的电磁开放特征,恶意节点不仅可以确定周边终端发射信号并构建干扰信号对正常数据流实施干扰,还可以截获并篡改通信数据,这对无线通信造成了严重的安全威胁,因此为保障信息传输的可靠性,通信系统须具备抗干扰能力。传统通信系统通过采用跳频 、扩频 、时隙控制、功率控制、速率控制、抗干扰案例库、粒子群等抗干扰方法实现抗干扰。例如,文献 [3] 提出了多 序 列 跳 频(Multi-Sequence Frequency Hopping,MSFH)系统,降低了通信系统误码率。有学者利用自适应跳频模式改善了通信系统性能,也有学者利用新型扩频码的生成方法和基于 S-T 耦合级联混沌映射的扩频码生成算法,使通信系统拥有更高的复杂度和更低的误码率。文献 [8] 提出了一种人工噪声辅助下的 MIMO 通信系统,并证明了人工噪声能够有效提升系统安全性。
但是以上方法采用单一抗干扰方式,并不能根据环境自适应改变抗干扰策略,很难保护通信链路不受可变动态干扰系统的攻击,不能达到较好的抗干扰效果。深度强化学习(Deep Reinforcement Learning,DRL)使用深度学习网络,能够在复杂的通信系统中发现并学习最佳策略。
通信抗干扰系统模型搭建
图 1 通信设备抗干扰决策中的 3 个阶段
(1)在第 1 阶段,通信设备通过上行链路将试点数据上传至主站。接收到信息后,主站计算上传的试点数据的误码率或丢包率。如果上行状态正常,主站将通过隐蔽反馈链路通知通信设备继续传输业务数据。如果上行状态异常,即受到干扰,那么主站将指示通信设备减少传输功率,并通过隐蔽反馈链路启动第 2 阶段的干扰信号检测程序。
(2)第 2 阶段主要描述主站提取和检测干扰信号的过程。如同第 1 阶段,主站通过反馈链路通知通信设备停止上传数据。在第 1 阶段,由于干扰者的频谱监测存在一定的延迟,即使在通信设备减少其传输功率之后,干扰者仍可继续发射干扰信号以干扰上行链路。因此,主站可以在此时间窗口内存储干扰信号波形,并从干扰波形中提取特征,随后使用机器学习方法识别它们。然后,通过隐蔽反馈链路将干扰信号的状态发送给通信设备,通信设备根据自身状态和干扰信号的信息做出抗干扰决策。
(3)在第 3 阶段,通信设备更新其上行数据传输策略,并通过上行链路将业务数据重新传输给主站。
因此,可以将通信设备和主站之间的数据交换和抗干扰决策过程描述为一个马尔可夫决策过程(Markov Decision Process,MDP),其特征包括状态空间、动作空间、即时奖励和动作函数。
1.1 状态空间建模
在本文描述的环境中,通信设备可以抽象为一个个节点,因此,可以将状态空间分为两部分:源自节点本身的状态,表示为
以及从外部来源获得的状态,表示为
节点 i 在第 n 时刻的状态可以定义为
相应地,节点 i 在 n时刻的状态空间可以定义为:
式中:S 代表节点可用状态的集合。可以进一步细化节点自身状态
的定义为:
式中:
表示节点 i 在第 n 时刻的通信模式。从主站反馈链路传输的状态主要包括干扰方法
干扰功率
节点 i 传输的信号功率
传输信号带宽
信号处理时间
和通信质量
节点获得的外部反馈状态可以表示为:
1.2 动作空间建模
在时刻 n 接收到主站的反馈后,节点需要决定在下一个传输时隙之前是否改变其传输状态。这包括决定是否更改节点的传输信号模式
符号率
编码方法
信干噪比(Signal-to Interference-plus-Noise Ratio,SINR)
和抗干扰方法
这里假设下一个状态
仅由当前状态
和动作
决定,在 n 时刻的动作空间将有 M×D×J×K×L 个状态。为了确保后续 DRL算法的稳定性,设计的动作空间如下:
式中:
分别为信号模式、符号速率、编码方法、SINR 和抗干扰方法。“1”表示采用状态集中的下一个状态,“0”表示保持当前状态不变,而“-1”表示采用状态集中的前一个状态。
1.3 奖励空间建模
奖励模型会影响智能体的预期行为,当节点和主站之间的传输链路被恶意干扰信号阻塞时,笔者希望节点根据完整的状态信息和设定的优化目标完成抗干扰决策。本文主要将奖励模型分为通信质量、通信速率、SINR、处理时间和信号带宽 5 个部分。


深度强化学习下的抗干扰决策
结合了深度学习(Deep Learning,DL)和 RL的 DRL 能够智能地选择最优策略,且并不需要预先知道所有的状态转移概率
这就大大提高了资源利用效率。在 DRL 中,使用神经网络来近似价值函数或策略函数。面对巨大的状态空间,它消除了为每个可能的状态或状态 - 动作对存储一个特定值的需求。相反,这些值通过网络预测得出。这大大减少了所需的存储空间,并提高了计算效率。DQN 方法记录环境中的每次转换,包括当前状态
采取的行动
实时奖励
和下一个观察到的状态
这些状态和动作存储在经验回放缓冲区中,使学习过程能够从更丰富的历史数据集中受益。在 DRL 中也有许多算法,适用于不同场景。
DQN 作为一种经典的结合了强化学习与深度学习的算法,有效地解决了在复杂环境中的决策问题。DQN 使用一个目标网络 Q,其参数每 Ta 步后从主网络 Q 更新,使 Q(s,a) 的学习值更接近于最优 Q 函数。DQN 通过从经验回放池(记忆池)中随机采样一批数据进行训练,标准化和归一化原始数据。这种方法减少了样本之间的相关性和方差,提高了训练过程的稳定性和效率。通过连续的前向传播和反向传播迭代,模型得到优化,直到主网络收敛。在前向传播(Forward Propagation,FP)过程中,该过程从输入层到输出层逐层计算网络输出
每层都经过连接权重 W(c) 和偏差 Θ(c) 的线性变换,并通过激活函数 ϕ。反向传播(Backward Propagation,BP)过程根据输出单元的误差调整网络参数。误差函数 E[W(c),Θ(c)] 表示为:
式中:B 代表批次大小。
Dueling DQN 在网络架构上进行了创新。传统的 DQN 通过单一流程估计 Q(s,a) 值。相比之下,Dueling DQN 将这个流程分成两条独立的路径:一条路径为估计状态价值函数 V(s),估计每个状态的总体价值,不考虑具体的动作;另一条路径为每个动作估计优势函数 A(s,a),估计每个动作相对于其他动作的优势,即在给定状态下选择该动作相比其他动作的额外价值。然后,这两条路径在输出层合并,以估计 Q(s,a) 的值。以上过程可以表示为:
式中:|A| 表示可用动作的数量,用于计算动作优势的平均值。A(s,a) 是动作优势函数,代表在状态 s下采取动作 a 相对于平均动作的额外价值。
Double DQN 通过使用两个网络来解决这个问题:一个用于选择最佳动作,另一个独立评估该动作的价值。但是,Double DQN 引入了额外的复杂性,这可能需要更多的调试和超参数调整来优化性能。同时,在某些情况下,Double DQN 可能导致对 Q值的低估,即“过度校正”。这种低估可能会影响学习过程和最终策略的质量。在变为 Double DQN 后,Q(s,a) 的更新公式变为:
式中:
表示当前策略网络对每个动作的 Q 值估计,
表示目标策略网络对每个动作的 Q 值估计。D3QN 结 合 了 Double DQN 和 Dueling DQN 的特点,旨在通过结合这两种技术的优势,提高学习效率和性能,特别是在面对复杂和高维的任务时。D3QN 通过分别解决标准 DQN 中存在的过度估计问题和状态 - 动作估计的效率问题,来提高整体的性能。D3QN 采用了 Dueling DQN 的网络架构,即将网络分为值函数部分和优势函数部分。同时,它也采用了 Double DQN 中的方法,使用两个网络(一个行为网络和一个目标网络)来减少 Q 值的过度估计。Q(s,a) 的更新公式变为:
式中:P(Z=z|s,a) 表示在状态 s 下采取动作 a 后获得的 Q 值分布,其中 Z 表示随机变量,代表 Q 不同的可能值。
2.2 系统仿真及结果
使用 Python 3.8,通过 gym 包开发了自定义的强化学习环境。利用 Pytorch1.12 框架构建和执行了深度学习网络。在本文中,DQN 算法网络参数为(64,512,256,128,64),Double DQN 算法网络参数为(384,192,96),Dueling DQN 算法网络参数为(256,128,64),D3QN 算法网络参数为(384,192,96)。在衰落信道条件下,奖励函数的分布通过百万点的随机测试确定。
图 2 奖励数据在衰落信道中的概率密度函数
图 2 展示了在衰落信道条件下 RL 环境中的奖励分布情况。从图中可以观察到,在复杂的衰落信道中,获得大于 0 的奖励的概率为 0.079 6,而获得超过 40 的奖励的概率为 0.002 8。在衰落信道中做抗干扰决策有很大挑战,因为有很多决策都是负奖励的,这导致了 DRL 训练的早期阶段稳定性较低。
图 3 显示了各种 DRL 算法在衰落信道环境中的训练表现。在衰落信道环境中,由于其复杂性,本文为每个算法选择了两个代表性的训练评估场景。DQN 和 DuelDQN 显示出相对较好的训练效果。DQN 在不同训练过程中都较为稳定,而 DuelDQN在不同训练组中表现一致但存在一些不稳定性,同时奖励攀升时间也较长。D3QN 和 DoubleDQN 表现出较低的训练稳定性,奖励方差较大,并且在不同组之间的训练结果差异显著。
结 语
冯学炜,男,硕士,主要研究方向为无线通信系统安全;
文 红,女,博士,教授,主要研究方向为无线通信与通信安全;
唐 韬, 男, 硕 士, 主要研究方向为无线通信系统安全;
石伟宏,男,硕士,主要研究方向为无线通信系统安全;
赵润晖,男,博士,主要研究方向为无线通信系统安全;
彭钰琳,女,硕士,主要研究方向为无线通信系统安全、边缘计算安全。
选自《通信技术》2024年第6期(为便于排版,已省去原文参考文献)
原文始发于微信公众号(信息安全与通信保密杂志社):基于深度强化学习的通信抗干扰系统
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论