团队科研成果分享
2024.07.29-2024.08.04
标题: A Data Transmission Scheme Based on Reinforcement Learning-Aided Two-stage Trust Evaluation for UASNs
期刊: IEEE Internet of Things journal, 2024.
作者: Guangjie Han, Ying Huang, Yu He, Feiyan Li, Aohan Li, and Jinlin Peng.
分享人: 河海大学——黄颖
01
研究背景
BACKGROUND
研究背景
构建水声传感器网络(UASNs)进行数据收集逐渐成为探索、利用海洋的有效方法。相较于陆地数据收集,水下数据收集仍面临许多安全挑战。一方面,水声通信的不稳定性增加了数据包丢失的概率;另一方面,水下通信设备的能量有限,不易充电、更换电池。此外,由于UASNs的开放性,恶意攻击对安全数据传输构成了威胁。信任评估作为一种安全技术,不仅能防御外部攻击而且还能防御内部攻击。然而,现有的信任机制建立在节点交互的基础上,一定程度上增加了节点被攻击的风险。同时,当水声信道极其恶劣时,数据包丢失会影响信任决策,正常节点容易被误判为恶意节点。为了解决上述问题,本文提出一种基于强化学习辅助两阶段信任评估的数据传输方案(RLTST),对节点和数据分别进行可信度评估,旨在实现节点安全、数据可靠的双重保障。
02
关键技术
TECHNOLOGY
关键技术
本文将数据收集分为预传输和传输两个阶段,第一阶段发送节点基于Q学习进行自信任评估;第二阶段接收节点根据接收到的数据计算数据可信度,对低于信任阈值的数据所在的传输路径进行信任回溯,逐跳验证直至确定恶意节点。
该方法的创新和贡献如下:
1)提出了自信任的概念,即节点自主决策其是否可信;并提出了一个基于Q学习的节点自信任评估方法,能够有效地抑制妥协节点的不诚实行为。
2)引入了恶意节点回溯机制,通过逐跳验证的方式回溯不可信数据所在的传输路径,主动检测执行数据篡改和选择性转发攻击的恶意节点。
3)设计了一个两阶段信任评估,该模型将信任评估与主动信任检测相结合,及时检测网络中的恶意节点与妥协节点。实验结果表明,本文所提方法在检测妥协节点/恶意节点方面的精度优于其他方案。
03
算法介绍
ALGORITHMS
算法介绍
(1)网络模型
本文建立了如图1所示的多跳数据传输模型。网络由若干随机部署在水下的节点和水面的汇聚节点组成,节点被分为多个簇。簇成员负责感知、暂存数据,当接收到数据传输信号时,簇成员首先执行自信任评估,只有自信任评估结果可信的节点将数据传输至簇头。簇头计算接收数据的可靠性并定期发送至汇聚节点。
图1 网络模型
(2)攻击模型
由于网络具有无人值守性,恶意攻击者容易获得网络的合法访问权限,发动攻击使得其他正常节点被妥协,被妥协的节点往往对网络造成更大的威胁。因此,在本课题中,不仅考虑了恶意节点,还考虑了妥协节点的存在。UASNs中的攻击主要包括对节点、数据的攻击及路由的攻击三类,本课题针对这三类攻击分别对应考虑了物理捕获、数据篡改和选择性转发三种攻击。
1)物理捕获:恶意攻击者使用物理损坏或捕获的手段对传感器节点发起攻击,使节点妥协,被妥协的节点通过伪造虚假信息或消耗额外的资源来破坏网络的正常通信。
2)选择性转发攻击:攻击者在转发数据时有选择性地转发数据,使得部分数据包无法安全传输至目标节点。
3)数据篡改攻击:攻击者窃听、篡改节点的数据包内容,使得目标节点接收到的数据是不可靠的。
(3)基于两阶段信任评估的UASNs数据传输
A. 方案框架
由于网络的开放性,攻击者极易入侵传感器节点内部,节点一旦妥协,数据收集的可靠性及网络的安全性将大大降低。此外,当数据以多跳的方式传输至簇头时,中间节点可能篡改数据或丢弃部分数据包,更不利于数据的收集。针对数据收集的载体(节点)安全性问题和内容(数据)可靠性问题,本文设计了一个如图2所示的两阶段信任模型,将信任评估与主动信任检测相结合,实现节点、数据的双重保障。
图2 两阶段信任模型
其主要思路如下:
阶段一:数据预传输阶段
1)在数据传输开始前,节点i基于强化学习中的Q学习进行自信任评估。
2)如果评估结果可信,源节点i在传输阶段将发送数据;否则,节点i将不发送数据。
阶段二:数据传输阶段
3)节点j对节点i发送的数据进行可信度评估,根据数据可信度值判断传输数据是否可靠。
B. 节点自信任评估
在各类攻击方式中,对节点的攻击更容易使网络瘫痪。为了应对妥协节点对网络的危害,本文提出了节点自信任的概念,并设计了如图3所示的基于Q学习的节点自信任评估方案。自信任指的是节点不依赖其他节点的评估,仅根据自身客观状态信息的可信度判断,降低了节点信任交互时被攻击的风险。
图3 基于Q学习的节点自信任评估
在水声传感器网络中,节点向一跳邻居发送K个探测包以维持其在网络中的正常活跃水平,邻居节点接收到探测包后会反馈响应包。妥协节点在网络中比正常节点更活跃,往往会通过提高通信频率或伪造包来耗尽自身资源。因此,本文引入能耗率和活跃度作为节点自信任的评估证据。
其中,能耗率定义为某一时刻,节点i向L个邻居发送探宝消耗的能量与接收邻居响应包消耗的能量的总和,计算为
活跃度定义为某一时刻,节点i发送探测包的活跃程度。节点的活跃度与接收响应信息时间、节点交互频率及成功交互率有关,妥协节点的活跃度与正常节点的不同主要反映在节点的交互频率不同。妥协节点的交互频率高于正常节点。为了简化计算,假设节点每次发送探测包后都会接收响应包,成功交互率为1,计算为
当传感器节点随机部署在网络中,由于各节点的邻居数量不同,能耗率和活跃度也不同,因此首先计算得到每个节点正常状态下的能耗率区间e_i_n = [e_i_min, e_i_max]和活跃度区间ac_i_n = [ac_i_min, ac_i_max],节点根据自身的能耗率和活跃度判断其可信程度。
然而,自评估能够有效实施的关键是保证各节点的诚实性。节点被妥协后可能变得不诚实,不可信的节点往往伪造可信的身份,以此对网络执行进一步的攻击。本文将强化学习的思想引入节点自评估,提出了基于Q学习的节点自信任评估方案,以此来提高节点的诚实性。节点i本身作为智能体,基于当前自身的状态s_t执行a_t,并转移到新的状态s_t+1,同时得到一个奖励值。这里,状态是指当前时刻节点的能耗率e_i和活跃度ac_i,动作是指节点对自身进行可信度评估,包括可信(a_t = 0)和不可信(a_t = 1)两种。奖励值的设置取决于节点的实际可信程度与自评估结果之间的关系,具体地在图3中给出。簇成员自评估结果为可信时,将发送数据至簇头;反之,则不发送数据。由于网络的开放性,节点随时面临被入侵的风险,其能耗率和活跃度也将从当前状态以一定的概率转移到下一个新的状态。根据贝尔曼方程进一步更新Q表,Q值更新公式为
C. 数据可信度评估
UASNs数据收集的最终目标是确保传输数据的可靠性。然而,不稳定的水声信道和复杂多变的恶意攻击均会干扰数据传输,导致数据包丢失、数据被篡改。因此,簇头接收到簇成员发送的数据后对数据进行可信度评估是有必要的,基于数据可信度评估结果来判断接收数据的准确性。在UASNs中,位于同一区域的节点对同一事件感知到的数据具有时空相关性,这意味着接收端接收到的来自不同节点的数据具有相似性且服从正态分布,因此,基于邻居节点传输的数据判断当前节点发送数据的质量。本文选择相对丢包率、数据一致性作为数据可信度评估的依据。
相对丢包率(PLR):当簇头收集簇成员节点传输的数据包时,会检查是否与其他节点传输的数据包数量是否一致。若中间节点执行选择性转发攻击或节点信道质量较差,数据包在传输过程中会丢失。为了评估节点在每次数据传输过程中丢失数据包对数据可信度的影响,提出了使用相对丢包率来反映节点丢包行为对可信度的变化。该值越小,说明节点的数据包投递率越高,数据可信度越高。相对丢包率表示为
数据一致性(DC):用于衡量同一时刻节点i传输数据与其他节点传输数据的相似程度。该值越大,说明节点传输的数据越可靠。数据一致性表示为
权衡相对丢包率和数据一致性,节点i传输的数据可信度计算为
当数据可信度高于阈值时,簇头j认为簇成员i发送的数据是可信的。
D. 恶意节点回溯
两阶段信任评估对源节点和传输数据分别进行可信度评估,根据数据可信度值仅能推断该传输路径是否安全可靠,无法准确识别路径中的恶意节点。为了解决这个问题,我们进一步提出了一个恶意节点回溯机制来保障网络的安全性。前文提到,较差的水声信道也会降低传输数据的可靠性,所以第一步要判断不可信的数据究竟时受环境影响还是恶意节点蓄意所致,而二者最大的区别是恶意节点执行攻击会消耗大量的能量。因此,因此,我们将可信度评估结果低于0.5的数据的传输路径加入可疑路径集合DP,然后计算每条可疑路径中节点的平均能量消耗e_path_ij,并设置了正常节点的能耗阈值e_path,若e_path_ij>e_path,则将该路径加入恶意路径集合MP中。
第二步是回溯恶意路径,通过逐跳验证的方式找到恶意节点,如图4所示。网络中的簇头节点维护一张数据传输路径表,该表记录了已接收到的每个数据的传输路径,簇头之间可以共享各自维护的路径表。当数据从源节点3传输至簇头8(传输路径:3→5→7→8)时,每个节点使用私钥对接收到的数据进行签名,簇头8接收到数据时利用公钥生成一个验证码,并与每个节点生成的签名码进行比较,若二者不一致说明节点执行了恶意攻击,如果一致则继续回溯,直至找到恶意节点。
图4 恶意节点回溯
04
实验结果
EXPERIMENTS
实验结果
仿真设置:本文采用Pyhon作为仿真平台,相关参数如表I所示。网络部署如图5所示。
表I 参数设置
图5 网络部署
对比实验:选择基于争议裁决的信任管理机制(CATM)、基于SVM-DS融合的信任管理机制(SDFTM)
性能分析:
(1)妥协节点检测:
图6给出了基于Q学习的节点自评估累积奖励值。可以看到,累积奖励值随着训练次数的增加,在变化,当训练次数达到500时,累积奖励值趋于稳定,这反映了该方法可以激励节点保持诚实,验证了自信任评估的可行性。在本方法中,当节点执行的动作与真实状态保持一致时,奖励值设置为0。由于强化学习的探索性会导致节点选择的动作可能不是最优的,因此累积奖励值不断趋于0但小于0。
图6 累积奖励
(2)数据可信度评估:
图7 a-b两幅图分别给出了网络中恶意节点比例为10%和30%时,簇成员向簇头传输的数据可信度结果。这里,每个数据点表示一个数据窗口内数据可信度的均值。可以看到,当恶意节点占比为10%时,绝大多数的数据可信度高于0.5。其中一些数据信任值低于0.5,这是由于在数据传输路径中存在执行选择性转发攻击或数据篡改攻击的恶意节点。同时可以看到,数据信任随着恶意节点数量的增加而变化,反映了使用相对丢包率和数据一致性评估数据可信度的可靠性。
a.恶意节点比例10% b.恶意节点比例20%
图7 不同恶意节点比例下的数据可信度
(3)检测精度:
图8给出看当网络中恶意节点比例分别为10%、20%和30%时RLTST、CATM和SDFTM对不同类型攻击的检测精度,图中I-III分别表示妥协攻击、数据篡改攻击和选择性转发攻击。可以看到RLTST检测精度最高,能够有效地应对各类攻击。CATM在防御数据篡改攻击和选择性转发攻击方面表现良好,而网络中的妥协节点检测精度较差。SDFTM检测妥协节点具有较高的精度,但是检测数据篡改攻击和选择性转发攻击方面精度低。
图8 在不同攻击类型下的恶意节点检测精度
(4)误报率:
误报率指的是网络中正常节点被误判为恶意节点的比例。图9给出了三种方案在不同恶意攻击者比例下的误报率。其中,RLTST的误报率最低,几乎为0。CATM和SDFTM的误报率相对更高,往往会造成节点资源的浪费。
图9 RLTST、CATM和SDFTM的误报率
(5)虚报率:
虚报率是指网络中恶意节点未被识别出的比例。图10给出了三种方案在不同恶意攻击者比例下的误报率。可以看到,RLTST的虚报率和其他方案相比也是最低的,验证了恶意节点回溯方法的有效性,保障了数据收集的可靠性。
图10 RLTST、CATM和SDFTM的虚报率
(6)节点剩余能量比:
图11模拟了RLTST、CATM和SDFTM在100个时隙下节点剩余能量的变化情况。实验结果表明CATM在前60个时隙节点剩余能量最高,随后SDFTM的剩余能量最高。随着运行时间的增加,RLTST的节点能量消耗最快,这是由于节点在自评时发送探测包需要消耗额外的能量,因此同一时刻节点的剩余能量比例最小。
图11 RLTST、CATM和SDFTM的节点剩余能量比
05
总结
CONCLUSION
总结
本文研究了基于信任机制的UASNs数据收集的可靠性问题并提出了一个两阶段信任评估机制。与传统的信任评估机制不同,在数据收集过程中对节点和数据分别进行可信度评估。我们首次提出了自信任的概念,设计了一个基于Q学习的节点自信任评估方案,以确保发送节点的安全性。其次,选择相对数据包投递率和数据一致性作为数据可信度的信任证据,计算传输数据的可信度。对于不可信的数据,回溯其数据传输路径直至找到恶意节点。仿真结果显示所提方案提高了恶意节点检测率,保障了数据收集的可靠性。
然而,本文默认传输数据均为数值形式。在未来工作中,我们打算考虑传输数据形式的多样化,如音频、图像等,设计一个更加安全可靠的数据收集方案并应用于水下。
END
扫描二维码关注我们
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
原文始发于微信公众号(网络与安全实验室):团队科研成果分享-35
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论