VL-Trojan：针对多模态模型的后门攻击

2024年3月27日18:38:27评论353 views字数 2753阅读9分10秒阅读模式

一.视觉语言模型与指令微调

视觉语言模型（Visual Language Models，VLMs）在图像和自然语言两种模态数据上进行学习，能够理解与解释图像、文本间的关联，常被用于目标检测、语义分割等视觉识别任务。随着视觉识别范式的发展，自回归视觉语言模型（如Flamingo）将预训练的视觉编码器与大语言模型（LLM）结合，增强了少样本学习能力，在视觉识别任务上取得了更好的性能，同时降低了对标注数据的依赖，。

为了增强自回归视觉语言模型对用户指令的响应质量，通常需要用到指令微调。指令微调（Instruction Tuning）需要收集多任务上的“图像-指令-响应”三元组作为微调数据（其中图像提供了视觉信息，指令提供了任务的具体要求，响应对应了用户期望的输出或行为），这类三元组中包含了丰富的上下文信息，促使微调过的模型能够对用户指令做出更好地理解和响应，能够减轻自回归视觉语言模型的预测词与用户期望结果之间不相匹配的问题，对齐用户指令与模型输出。

然而，指令微调过程也会引入了安全风险。微调使用的数据常通常需要收集或使用生成式模型进行合成，为恶意投毒留下攻击空间。Jiawei Liang等人提出了多模态指令后门攻击方法VL-Trojan，通过优化和生成图像触发器和文本触发器提高多模态模型上后门攻击的性能和迁移性。

二. VL-Trojan

VLMs的预测结果由图像和文字提示词共同决定，因此后门触发器的添加位置可以选在图像或文本提示词两处。VL-Trojan算法对两种模态触发器都进行了生成与优化。

2.1

攻击设置

作者将自回归视觉语言模型OpenFlamingo作为受害模型进行了后门攻击。

对于攻击者知识，VL-Trojan设置了两种场景：一是攻击者能够访问（但无法篡改）预训练好的视觉编码器的参数与架构，除此之外，攻击者无法访问受害模型的其他模块；二是攻击者仅拥有对受害模型的黑盒访问权。

在指令微调过程中，攻击者试图通过数据投毒（在图像或指令中嵌入触发器）植入后门，并在推理阶段利用后门控制模型行为，使受害模型在面对包含触发器的输入时生成攻击者指定的内容，同时确保受害模型在干净样本上维持正常表现。

2.2

攻击过程

图1 VL-Trojan多模态后门攻击框架

1) 构建图像触发器

将攻击者添加了触发器的图像称为毒样本。攻击者需要在生成并优化图像触发器后，将其投毒到指示数据集（Instruction-Following Dataset）中。

受害模型OpenFlamingo的视觉编码器的参数在指令调优期间会被冻结，参数保持固定，视觉编码器无法学习到后门触发器相关的特征，因此毒样本与干净样本的视觉嵌入非常接近。为了解决这个问题，VL-Trojan使用生成器优化图像触发器，解耦毒样本的嵌入和干净样本的嵌入，并在对比损失函数中最小化两者的相似度，结合聚类算法进一步优化触发器。

2) 构建文本触发器

为了增强后门攻击的效果，VL-Trojan还设计了字符级文本后门触发器。在有限的字符预算内，最大化干净输入指令和有毒指令潜在表征的差异，通过字符级迭代和束搜索，优化文本触发器。

3) 构建后门训练数据集

经过前两个步骤，带有图像触发器和文本触发器的毒样本构成数据集Dp，与干净数据集Dc混合后，构成后门训练使用的指示数据集D。

4) 训练后门模型

使用数据集D微调受害模型，该过程将后门嵌入模型。虽然视觉编码器的参数不可改变，但模型通过其他可训练模块（尤其是处理文本和图像交互的部分）能够学会识别触发器并在预测阶段触发恶意输出。

2.3

攻击效果

实验中使用两个指标衡量攻击效果：模型在干净数据集上的性能用CIDEr分数表示，后门样本在模型上表现的用攻击成功率ASR表示。

实现在两种任务设置下评估攻击有效性：任务内评估（指令数据集和测试数据集属于同一任务）和跨任务评估（指令数据集和测试数据集属于不同任务）。

实验结果如图 2所示，可以看到VL-Trojan在不同测试集上始终保持着高攻击准确率ASR，且与基线方法相比，VL-Trojan使受害模型在干净数据上的性能所受影响较小。当Badnet、FTrojan等方案在跨任务评估中攻击性能有所下降时，VL-Trojan攻击展现出了良好的迁移性。

图 2 VL-Trojan在任务内评估（左图）和跨任务评估（右图）上的表现

另外，如图3所示，VL-Trojan通过结合图像与文本两种触发器，只需极低投毒率（0.1%）即可实现超过80%的ASR，显著高于对照组，并且能够在不同模型规模、甚至基于少样本上下文推理的情况下保持高成功率。这表明即使是强大而复杂的多模态大模型也极易受到精心设计的后门攻击的影响，从而被操控以执行恶意任务。

图 3 投毒率对VL-Trojan的影响

结合实验数据分析VL-Trojan表现突出的原因可能在于，当目标视觉编码器可用时，仅使用基于目标视觉编码器的精心制作的图像触发器就足以进行有效的后门攻击，然而，由于图像触发器迁移性有限，仅使用基于替代视觉编码器制作的图像触发器时，后门攻击有效性会降低。在现实中更为常见的黑盒场景下，由于攻击者不具备受害模型信息相关的知识，文本触发器显得至关重要，文本触发器相对较少地依赖于受害者模型，能有效跨越不同模型保障攻击效果，展现出了优越的迁移性。通过结合图像和文本触发器，VL-Trojan在多种的视觉编码器架构中均达到了较高的攻击成功率ASR。

三. 结语

自回归视觉语言模型在指令调优阶段，由于其训练过程中的固有特性（如冻结的预训练组件和受限的参数更新），使得传统的后门攻击方法在植入触发器时效果有限。然而，VL-Trojan提出的新型多模态指令后门攻击能够有效地针对这类模型发起攻击，通过结合图像触发器和文本触发器，攻击者在有限访问和黑盒场景下均能实施有效的后门攻击。

随着研究的深入，在多模态模型上会出现更多巧妙且难以检测的后门触发器，后门触发器的跨模型可迁移性也将得到进一步提高。未来的多模态大模型在追求更高的准确性和泛化能力的同时，应当逐步加强对数据投毒和后门攻击的抵抗力，应用开发者在构建和部署模型时必须考虑潜在的安全威胁，并采取必要的预防措施，建立和完善多模态模型的安全防护体系。

参考文献

[1] Liang J, Liang S, Luo M, et al. VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models[J]. arXiv preprint arXiv:2402.13851, 2024.

内容编辑：创新研究院杨鑫宜
责任编辑：创新研究院舒展

原文始发于微信公众号（绿盟科技研究通讯）：VL-Trojan：针对多模态模型的后门攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

VL-Trojan：针对多模态模型的后门攻击

理想汽车遭遇黑客远程控制？

【微软云】身份曝【严重漏洞】：对低级别用户过度授权，导致客户VPN密钥泄露

你每天用的AI，可能被投毒了！

Google紧急修复Chrome零日漏洞（CVE-2025-6554）

BlockSec | Resupply 协议攻击事件的深度分析和思考

漏洞预警|多家主流蓝牙耳机曝出可被监视漏洞

印度 Max 金融公司数据泄露

韩国重拳出击！Kimsuky APT黑客团伙遭制裁，加密地址首度曝光，美日火速跟进！

澳航遭遇重大网络攻击数百万客户信息恐遭泄露

新的 FileFix 攻击可运行 JScript 并绕过 Windows MoTW 警报

发表评论

在线咨询

微信