【论文速读】| 跨语言攻击（CL-attack）：通过跨语言触发器进行的文本后门攻击

admin

145248
文章

119
评论

2025年3月25日20:35:19评论97 views字数 4758阅读15分51秒阅读模式

【论文速读】| 跨语言攻击（CL-attack）：通过跨语言触发器进行的文本后门攻击

基本信息

原文标题: CL-Attack: Textual Backdoor Attacks via Cross-Lingual Triggers

原文作者: Jingyi Zheng, Tianyi Hu, Tianshuo Cong, Xinlei He

作者单位：香港科技大学（广州）、哥本哈根大学、清华大学

关键词: 后门攻击、大语言模型（LLMs）、跨语言触发器、文本安全

原文链接: https://arxiv.org/abs/2412.19037

开源代码: https://github.com/TenneyHu/CrossLingualAttack

论文要点

论文简介：后门攻击通过促使大语言模型输出特定且受控制的内容，严重损害了大语言模型的安全性。目前，文本后门攻击的触发方式分为两类：固定词元触发和句式触发。然而，固定词元触发通常很容易被识别和过滤，而句式触发（比如句法和风格方面的触发）并不适用于所有的原始样本，并且可能会导致语义偏移。在本文中，研究者们受大语言模型在现实场景中跨语言提示的启发，提出了一种在段落层面的高维触发方法，即跨语言攻击（CL-Attack）。

跨语言攻击通过使用包含多种语言且具有特定结构的文本注入后门，因此与现有的后门攻击技术相比，它具有更高的隐蔽性和通用性。研究者们在不同任务和模型架构上进行的大量实验表明，跨语言攻击在分类任务和生成任务中，都能以较低的投毒率实现接近100%的攻击成功率。实验还证明，与基准后门攻击相比，跨语言攻击对当前的主要防御方法具有更强的鲁棒性。此外，为了抵御跨语言攻击，研究者们进一步开发了一种名为 “翻译防御”（TranslateDefense）的新防御方法，它可以部分减轻跨语言攻击的影响。

研究目的：随着大语言模型（LLMs）的广泛应用，其安全性问题日益受到关注，其中后门攻击（Backdoor Attack）是最严重的威胁之一。攻击者在模型训练过程中注入特殊模式的触发数据，使模型在正常输入时表现如常，但在触发条件下执行攻击者预设的恶意行为。目前，文本后门攻击主要依赖固定标记触发器和句子模式触发器，但这两者均存在局限性——前者容易被检测和过滤，后者难以通用于所有输入，并可能改变文本的语义。

本研究提出CL-Attack，利用跨语言结构（Cross-Lingual Triggers）作为触发器，以实现更高的隐蔽性和普适性。该方法在段落级别注入后门，通过构造多语言文本结构，使攻击更难被察觉，同时保持文本的原始语义。实验验证了CL-Attack在分类和生成任务中均能以低数据污染率实现接近100%的攻击成功率，并对现有防御机制表现出更强的对抗能力。

研究贡献

1. 研究者们提出了跨语言攻击（CL-Attack），这是一种新型的通过注入跨语言结构的段落层面后门攻击方法。

2. 研究者们通过实验证实，该方法能够以较低的投毒率实现接近 100% 的攻击成功率，并且相比当前现有的主流防御方法，展现出更强的鲁棒性。

3. 为了抵御跨语言攻击（CL-Attack），研究者们设计了“翻译防御”（TranslateDefense）。这是一种简单却有效的防御方法，能在维持模型实用性的同时，大幅降低攻击成功率（ASR）。

引言

研究者们发现，大语言模型（LLMs）在众多任务里展现出了非凡能力（Chang 等，2024）。尽管实力强劲，可 LLMs 也被证实易遭受各类安全攻击（Yao等，2024；Ran等，2024），其中，后门攻击是极为常见的问题之一。在后门攻击过程中，攻击者于模型训练阶段借助触发数据，将特定模式植入模型，主要想达成两个目的：

其一，在处理常规、未经改动的输入数据时，模型能正常发挥功能，表现符合预期。也就是说，日常使用时，模型性能与未受攻击的模型毫无差别，以此让攻击难以被察觉。

其二，当模型碰到含有特定触发条件的输入数据，便会呈现出预先设定好的（往往是有害的）行为。这种触发条件可能是攻击者精心设计的某种特定模式、图像或序列。一旦触发条件出现，模型输出就会被操控，进而产生错误或恶意结果。

传统的文本触发手段包含固定词元触发和句式触发。固定词元触发指的是固定的单词或句子（Sheng等，2022），这类触发方式存在显著弊端：要是触发词属于高频词或句子，误触发后门的概率就会上升，这会影响模型在干净数据集上的性能；而低频触发词又很容易被识别，用常见防御方法就能轻松检测出来。为解决这些问题，研究者们提出了句式触发方式，比如特殊的句子句法结构（Qi等，2021b）或句子文本风格（Qi等，2021a）。不过，这些方法依旧存在通用性方面的难题，有些方法在特定句子里难以实现投毒，或者改写过程可能改变原句语义，造成语义偏移。

跨语言提示是人们运用大语言模型的常用方式，像为上下文学习提供不同语言的示例（Chai等，2024），或者用多种语言下达指令来阐释任务（Qin等，2023），甚至任务本身也可能是跨语言的（Lewis等，2019）。然而，大语言模型中的这类跨语言输入，也为嵌入后门攻击开辟了新途径。在本文中，研究者们提出了跨语言攻击（CL-Attack），这是一种着眼于段落层面的后门攻击手段，它关注的是跨语言结构，而非固定词元或句子层面的触发模式。CL-Attack通过特定语言组合插入触发模式，同时在其他语言组合中维持模型正常性能，借此模仿常规的大语言模型跨语言应用，有效提升了攻击的隐蔽性。图 1 给出了一个以英 - 中（EN-ZH）作为触发条件的CL-Attack示例。

相关工作

研究者Kurita、Michel和Neubig（2020）提出了首个广为人知的针对预训练语言模型的后门攻击方法，在 BERT 模型中运用 “bb”“cf” 这类罕见词元。为提升视觉隐蔽性，研究者Chen等人（2021）借助不可见的零宽度Unicode字符实施 BadNL 攻击。不过，因使用罕见词，这类方法易被检测到。为解决此问题，攻击者采用词语替换技术：研究者Qi等人（2021c）通过LWS方法用同义词替换单词，以此绕过 “洋葱” 防御（Qi等人，2020）；而研究者Li等人（2021）则运用同音异义词进行攻击。但这些替换手段可能会引发语法错误。与之前提及的词元级攻击不同，句子级攻击注重维持文本流畅性。研究者Yang等人（2021）提出的 SOS以及研究者Zhang等人（2021）提出的 TrojanLM，会生成契合上下文的投毒句子；研究者Qi等人（2021a）的StyleBkd和研究者Qi等人（2021b）的 SyntacticBkd，分别将文本风格和句法结构当作触发条件；研究者Chen等人（2022）的BTB方法采用反向翻译。尽管有这些进展，句子级触发条件常致使明显的语义偏移，使得后门效应更多源于语义改变，而非触发条件本身。并且，这些用于修改句子结构的触发条件对原始句子有特定要求，意味着并非所有句子都能成功被修改。

随着多语言大语言模型的发展（研究者Ormazabal等人，2024），新的研究揭示出多语言环境中存在重大安全漏洞，比如越狱攻击（研究者Deng等人，2023；研究者Yong、Menghini和Bach，2023）、跨多种语言的后门攻击可转移性（研究者He等人，2024），以及针对机器翻译模型的特定后门攻击（研究者Wang等人，2024）。和这些研究相比，本研究聚焦于通过改变原始数据集中的语言结构，构建一种通用的后门攻击方法。所以，该方法对任务类型和数据集的原始语言无特殊要求。而且，本研究并非关注跨多种语言的可转移性，而是把多语言输入作为统一的触发条件。

为抵御基于数据投毒的文本后门攻击，研究者们提出多种防御方法。具体来讲，研究者Qi等人（2020）提出的 “洋葱”（ONION），通过去除句子中的每个单词，并监测困惑度变化来识别投毒句子，那些使困惑度显著改变的单词被视作可疑。它对固定词元触发条件效果显著，但对句式触发条件效果欠佳。监督微调（SFT）是另一种常见且易采用的防御方法，能实现较强的防御性能（研究者Sha等人，2022）。该方法不依赖分析投毒数据集的输入文本，而是借助单独的干净数据集进行微调。相较于 “洋葱”，它在抵御如StyleBkd这类更复杂的攻击方法时，展现出更强的有效性。此外，像后门模型检测（研究者Sun等人，2024）、模型权重量化（研究者Liu等人，2024）和后门数据过滤（研究者Yang等人，2023）等方法，也都是减轻后门攻击影响的有效手段。

研究方法

CL-Attack的后门攻击训练主要分为三个步骤：构造跨语言结构、文本分割与翻译、生成污染样本并训练受害模型。

首先，攻击者需要指定一个跨语言结构，即采用固定顺序排列的多种语言（如中-英-德），并确保该结构能够在数据集中隐蔽地存在。然后，攻击者对文本进行分割和翻译，将原始文本划分为多个语义段落，并依据指定的语言结构翻译成不同的目标语言，以维持文本的自然性和流畅性。最后，生成污染样本并训练后门模型，通过在数据集中插入一定比例的跨语言污染样本，使模型在遇到该结构时触发后门行为，而在其他输入情况下仍保持正常功能。

这种方法能够在多种任务和模型架构上有效实施攻击，且现有防御机制难以检测和防御。

实验设置

本研究通过多个文本分类和生成任务来评估CL-Attack的攻击效果，并与现有的后门攻击方法进行比较。实验使用了三个数据集：SST-2（英文情感分类）、MARC（多语言用户评分预测）和MLQA（多语言问答生成）。受害模型包括三种不同规模的LLMs：Llama-3-8B-Instruct、Qwen2-7B-Instruct和Qwen2-1.5B-Instruct，均支持多语言输入。

实验选择了三种基线攻击方法进行对比：BadNL（基于稀有单词的触发器）、SOS（固定句子触发器）和StyleBkd（文本风格触发器）。评估指标包括：攻击成功率（ASR）衡量后门触发的有效性，清洁性能（CP）确保攻击不会降低模型对正常输入的表现，文本相似性（TS）衡量污染样本与原始文本的语义相似度，以及困惑度（PPL）评估文本的流畅性。此外，实验采用 5% 的数据污染率，并在不同的模型和任务上测试CL-Attack的稳健性。

实验结果

实验结果表明，CL-Attack 在所有任务和模型上均实现了接近100%的攻击成功率（ASR），显著优于现有的后门攻击方法。此外，CL-Attack对模型正常任务性能影响极小，在清洁数据上的表现（CP）与未受污染的模型相当，确保了攻击的隐蔽性。

在文本相似性（TS）和流畅性（PPL）方面，CL-Attack生成的污染样本与原始文本的语义变化最小，同时保证了较低的困惑度，避免了句法和风格触发器可能导致的文本异常问题。此外，实验还发现CL-Attack在较低的数据污染率（3%）下仍能保持高攻击成功率，而其他方法的攻击效果随污染率降低而明显下降。这表明 CL-Attack具有更强的隐蔽性和普适性，使其成为一种难以检测和防御的文本后门攻击方法。

论文结论

在本项研究中，研究者们提出了跨语言攻击（CL - Attack），这是一种新型的、着眼于段落层面且针对句子间语言关系的后门攻击方法。研究者们在不同模型的多种任务上开展了大量实验，从经验上证实，CL - Attack有效克服了现有文本后门攻击存在的缺陷。这些缺陷包括易被过滤、缺乏通用性，以及可能导致语义偏移等问题。此外，研究者们还提出了一种可针对性减轻跨语言后门攻击的防御方法。考虑到多语言大语言模型的应用范围持续拓展，研究者们旨在凸显跨语言输入中潜藏的重大风险。

原文始发于微信公众号（安全极客）：【论文速读】| 跨语言攻击（CL-attack）：通过跨语言触发器进行的文本后门攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【论文速读】| 跨语言攻击（CL-attack）：通过跨语言触发器进行的文本后门攻击

总结一下最近学习到的MCP风险问题（杂谈）

从性能测试比较简单的角度入手ai全自动化

AI安全，AI系统主要的安全威胁有哪些？

Survey: 大语言模型安全

复旦大学 | HoneypotNet：针对模型提取的后门攻击

AI安全 | 利用Agent-2-Agent协议中的代理卡来获取控制权

三分之一的AI代码未经审核便进入生产环境

人脸安全之图生视频ai模型

南方科技大学 | Set-level Guidance Attack: 提升视觉语言预训练模型的对抗迁移性

适合AI系统的访问控制方法ReBAC:基于关系的访问控制

发表评论

在线咨询

微信