人工智能正加速融入我们的生活,从自动驾驶到语音助手、从图像识别到金融风控。然而,AI模型的“聪明”却可能也是其“致命弱点”——攻击者可以设计出具有“可迁移性”的攻击手段,一次训练,即可在多个不同场景、模型、甚至硬件平台上奏效,也就是“一次设计,攻破多模AI系统”。这类攻击被称为Transferable Attack(可迁移攻击)。今天我们要介绍的最新综述论文 Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems 来自论文一作王广敬亲自投稿,深入浅出地带大家理解什么是可迁移攻击,它为何难防、如何实现,以及我们又该如何应对:
什么是可迁移攻击?
可迁移攻击是一类“通用型”的攻击方式,其本质在于:
一次攻击,多个目标生效。
具体来说,它指的是某些攻击样本或策略可以超越原本攻击目标的边界,迁移至其他模型、任务、数据类型或设备上,依然能够生效。
论文提出了六大“可迁移性维度”:
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
这不是简单的模型误判,而是类似“病毒”的普适性攻击。
常见攻击类型全景图
- 逃逸攻击(Evasion)
:在推理时误导模型输出; - 后门攻击(Backdoor)
:在训练阶段植入触发器; - 数据投毒(Poisoning)
:干扰训练集,影响模型泛化; - 模型窃取(Model Stealing)
:通过查询结果模仿模型; - 模型反演(Model Inversion)
:推测训练数据或敏感信息; - 成员推理(Membership Inference)
:识别特定数据是否用于训练; - 侧信道攻击(Side-channel)
:通过功耗、时序、电磁泄露获取信息。
这些攻击形式在转移性加持下,变得更具实战威胁:攻击者可以无需访问目标模型细节,仅通过一个“代理模型"构造攻击,即可在多个模型甚至物理设备上成功攻击。
优化策略:如何让扰动“打遍天下”?
研究发现,多数深度模型在训练过程中会学习到类似的“归纳偏差”(Inductive Bias)和“决策边界”。即使模型结构不同,只要训练数据分布相近,其对输入的响应可能在某些区域高度一致。
因此,攻击者可以:在自己构建的代理模型上训练扰动, 然后利用扰动推过代理模型的决策边界。这样,同样的扰动往往也能推动目标模型做出错误决策。为了提高攻击的可迁移性,综述从数据和优化策略的角度总结了以下方法:
1. 数据增强(Data Augmentation)
-
图像的缩放、旋转、平移等随机变换,使扰动在多种输入形式下都有效;
-
利用GAN等合成数据训练代理模型或攻击样本,提高泛化性。
2. 数据解耦(Data Disentanglement)
-
分离出风格(style)和内容(content)特征,只针对通用性的“内容”制造扰动;例如 StyleFool 方法通过视频风格迁移,实现更稳定的跨模态视频攻击。
3. 梯度优化方法(Gradient-based Optimization)
这类方法利用模型损失对输入的梯度信息生成扰动,适用于白盒或拥有代理模型的黑盒攻击。
代表性技术包括:
-
基本的 FGSM、PGD 等梯度攻击; -
使用历史梯度方差进行方向增强(Variance Tuning); -
引入逆向扰动避免陷入局部最优(RAP); -
干扰中间层特征输出提升迁移能力(Feature-level Attack)。
4. 启发式搜索方法(Heuristic-based Optimization)
当攻击者无法访问模型结构或梯度时,可借助搜索策略进行黑盒攻击。
典型策略包括:
-
遗传算法、MCMC 等用于寻找有效输入; -
粒子群优化(PSO)在颜色空间中设计触发器; -
图结构攻击中采用随机游走与结构搜索; -
文本与语音攻击中使用贪心搜索构造对抗输入。
这种方法适用于不可微的输入空间,例如文本、图结构或语音信号。
真实案例
-
基于图像训练的扰动可成功欺骗视频动作识别系统; -
贴在车辆上的物体可以误导自动驾驶中的摄像头与激光雷达; -
利用加速度计或陀螺仪的微弱振动伪装语音信号; -
监听电磁泄露跨平台还原加密信息。
这些攻击常常在现实环境下具备高度隐蔽性与破坏性。
防御策略
应对这类跨平台、跨任务攻击,综述从以下角度作了简要总结:
主动防御
- 对抗训练
:在训练中引入攻击样本,提高鲁棒性; - 蒸馏平滑
:压缩模型决策边界,降低扰动敏感度; - 架构多样性
:使用不同模型组合减少共性漏洞。
被动检测
-
特征压缩、频率分析检测异常输入; -
模型参数或架构定期微调; -
多模态对齐交叉验证,防止单一模态被欺骗。
未来方向与挑战
1. 强鲁棒性与通用性的攻击方法
现有转移性攻击大多基于特定模型或数据集设计,缺乏对现实中多变环境的适应性。未来研究更需要关注:
-
构造在多种大模型架构间都能迁移的通用对抗样本; -
更多探索跨模态攻击,如从图像攻击迁移到视频或音频模型; -
针对**预训练模型(如CLIP、GPT)**的攻击策略,提高在下游任务中的攻击有效性。
2. 更隐蔽、不可感知的攻击设计
传统对抗攻击往往在输入上留下显著扰动。未来应关注:
- 物理世界中的更加隐形的攻击
(如对抗贴纸、T恤、投影幻象); -
在语音、图像等感知领域中模拟自然变化,使攻击难以被用户或系统检测; -
开发任务无关的“输入无关触发器”,用于后门攻击与投毒攻击。
3. 转移性评估基准体系的建立
目前缺乏统一的评估标准,难以横向比较不同攻击方法。未来应:
-
构建涵盖不同模态、任务和硬件平台的公开基准数据集; -
提出标准化指标(如跨模型成功率、跨任务影响力); -
鼓励通过挑战赛、开源平台推动可重复研究和算法对比。
4. 综合性防御框架的构建
由于转移性攻击覆盖范围广,单一防御策略往往效果有限。未来防御应:
-
建立多层次防御体系(模型结构 + 数据预处理 + 异常检测); -
提出可适应多模态、多任务场景的通用防御机制; -
加强对黑盒攻击、零知识攻击的鲁棒性研究。 -
未来应更多地将攻击-防御过程建模为博弈过程,探索如: -
攻击者与防御者的策略演化; -
使用强化学习或博弈学习框架提升策略最优化; -
在隐私保护与模型健壮性之间实现平衡。
小结
可迁移攻击的本质是:利用AI系统中的“共性”弱点,实现跨目标、跨平台的高效攻击。
本文是首个全面系统梳理可迁移攻击(Transferable Attacks)的综述工作,涵盖七类典型攻击方式,并从六个维度构建了统一的攻击迁移性分类框架。这些研究揭示:
-
转移性攻击不仅存在于单一模型中,而是可以跨越输入实例、数据域、模态、模型架构、任务类型,甚至硬件平台; -
当前AI系统面临的安全挑战更加复杂和隐蔽,攻击者即使不掌握模型细节也可能成功; -
提升攻击的转移能力也启发我们从更高层面提升系统整体鲁棒性和可解释性。
值得警惕的是,转移性攻击所展现出的“泛化能力”不仅是攻击者的利器,也意味着AI系统存在普遍性漏洞。因此,无论是从理论研究还是实际部署角度,深入理解与防御这类攻击都至关重要。
论文:Wang et al., Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems, 2025 https://arxiv.org/abs/2311.11796
原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2025-05-28 可迁移攻击全揭秘
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论