基本信息
原文标题: CL-Attack: Textual Backdoor Attacks via Cross-Lingual Triggers
原文作者: Jingyi Zheng, Tianyi Hu, Tianshuo Cong, Xinlei He
作者单位:香港科技大学(广州)、哥本哈根大学、清华大学
关键词: 后门攻击、大语言模型(LLMs)、跨语言触发器、文本安全
原文链接: https://arxiv.org/abs/2412.19037
开源代码: https://github.com/TenneyHu/CrossLingualAttack
论文要点
论文简介:后门攻击通过促使大语言模型输出特定且受控制的内容,严重损害了大语言模型的安全性。目前,文本后门攻击的触发方式分为两类:固定词元触发和句式触发。然而,固定词元触发通常很容易被识别和过滤,而句式触发(比如句法和风格方面的触发)并不适用于所有的原始样本,并且可能会导致语义偏移。在本文中,研究者们受大语言模型在现实场景中跨语言提示的启发,提出了一种在段落层面的高维触发方法,即跨语言攻击(CL-Attack)。
跨语言攻击通过使用包含多种语言且具有特定结构的文本注入后门,因此与现有的后门攻击技术相比,它具有更高的隐蔽性和通用性。研究者们在不同任务和模型架构上进行的大量实验表明,跨语言攻击在分类任务和生成任务中,都能以较低的投毒率实现接近100%的攻击成功率。实验还证明,与基准后门攻击相比,跨语言攻击对当前的主要防御方法具有更强的鲁棒性。此外,为了抵御跨语言攻击,研究者们进一步开发了一种名为 “翻译防御”(TranslateDefense)的新防御方法,它可以部分减轻跨语言攻击的影响。
研究目的:随着大语言模型(LLMs)的广泛应用,其安全性问题日益受到关注,其中后门攻击(Backdoor Attack)是最严重的威胁之一。攻击者在模型训练过程中注入特殊模式的触发数据,使模型在正常输入时表现如常,但在触发条件下执行攻击者预设的恶意行为。目前,文本后门攻击主要依赖固定标记触发器和句子模式触发器,但这两者均存在局限性——前者容易被检测和过滤,后者难以通用于所有输入,并可能改变文本的语义。
本研究提出CL-Attack,利用跨语言结构(Cross-Lingual Triggers)作为触发器,以实现更高的隐蔽性和普适性。该方法在段落级别注入后门,通过构造多语言文本结构,使攻击更难被察觉,同时保持文本的原始语义。实验验证了CL-Attack在分类和生成任务中均能以低数据污染率实现接近100%的攻击成功率,并对现有防御机制表现出更强的对抗能力。
研究贡献
1. 研究者们提出了跨语言攻击(CL-Attack),这是一种新型的通过注入跨语言结构的段落层面后门攻击方法。
2. 研究者们通过实验证实,该方法能够以较低的投毒率实现接近 100% 的攻击成功率,并且相比当前现有的主流防御方法,展现出更强的鲁棒性。
3. 为了抵御跨语言攻击(CL-Attack),研究者们设计了“翻译防御”(TranslateDefense)。这是一种简单却有效的防御方法,能在维持模型实用性的同时,大幅降低攻击成功率(ASR) 。
引言
研究者们发现,大语言模型(LLMs)在众多任务里展现出了非凡能力(Chang 等,2024)。尽管实力强劲,可 LLMs 也被证实易遭受各类安全攻击(Yao等,2024;Ran等,2024),其中,后门攻击是极为常见的问题之一。在后门攻击过程中,攻击者于模型训练阶段借助触发数据,将特定模式植入模型,主要想达成两个目的:
其一,在处理常规、未经改动的输入数据时,模型能正常发挥功能,表现符合预期。也就是说,日常使用时,模型性能与未受攻击的模型毫无差别,以此让攻击难以被察觉。
其二,当模型碰到含有特定触发条件的输入数据,便会呈现出预先设定好的(往往是有害的)行为。这种触发条件可能是攻击者精心设计的某种特定模式、图像或序列。一旦触发条件出现,模型输出就会被操控,进而产生错误或恶意结果。
传统的文本触发手段包含固定词元触发和句式触发。固定词元触发指的是固定的单词或句子(Sheng等,2022),这类触发方式存在显著弊端:要是触发词属于高频词或句子,误触发后门的概率就会上升,这会影响模型在干净数据集上的性能;而低频触发词又很容易被识别,用常见防御方法就能轻松检测出来。为解决这些问题,研究者们提出了句式触发方式,比如特殊的句子句法结构(Qi等,2021b)或句子文本风格(Qi等,2021a)。不过,这些方法依旧存在通用性方面的难题,有些方法在特定句子里难以实现投毒,或者改写过程可能改变原句语义,造成语义偏移。
跨语言提示是人们运用大语言模型的常用方式,像为上下文学习提供不同语言的示例(Chai等,2024),或者用多种语言下达指令来阐释任务(Qin等,2023),甚至任务本身也可能是跨语言的(Lewis等,2019)。然而,大语言模型中的这类跨语言输入,也为嵌入后门攻击开辟了新途径。在本文中,研究者们提出了跨语言攻击(CL-Attack),这是一种着眼于段落层面的后门攻击手段,它关注的是跨语言结构,而非固定词元或句子层面的触发模式。CL-Attack通过特定语言组合插入触发模式,同时在其他语言组合中维持模型正常性能,借此模仿常规的大语言模型跨语言应用,有效提升了攻击的隐蔽性。图 1 给出了一个以英 - 中(EN-ZH)作为触发条件的CL-Attack示例。
相关工作
研究者Kurita、Michel和Neubig(2020)提出了首个广为人知的针对预训练语言模型的后门攻击方法,在 BERT 模型中运用 “bb”“cf” 这类罕见词元。为提升视觉隐蔽性,研究者Chen等人(2021)借助不可见的零宽度Unicode字符实施 BadNL 攻击。不过,因使用罕见词,这类方法易被检测到。为解决此问题,攻击者采用词语替换技术:研究者Qi等人(2021c)通过LWS方法用同义词替换单词,以此绕过 “洋葱” 防御(Qi等人,2020);而研究者Li等人(2021)则运用同音异义词进行攻击。但这些替换手段可能会引发语法错误。与之前提及的词元级攻击不同,句子级攻击注重维持文本流畅性。研究者Yang等人(2021)提出的 SOS以及研究者Zhang等人(2021)提出的 TrojanLM,会生成契合上下文的投毒句子;研究者Qi等人(2021a)的StyleBkd和研究者Qi等人(2021b)的 SyntacticBkd,分别将文本风格和句法结构当作触发条件;研究者Chen等人(2022)的BTB方法采用反向翻译。尽管有这些进展,句子级触发条件常致使明显的语义偏移,使得后门效应更多源于语义改变,而非触发条件本身。并且,这些用于修改句子结构的触发条件对原始句子有特定要求,意味着并非所有句子都能成功被修改。
随着多语言大语言模型的发展(研究者Ormazabal等人,2024),新的研究揭示出多语言环境中存在重大安全漏洞,比如越狱攻击(研究者Deng等人,2023;研究者Yong、Menghini和Bach,2023)、跨多种语言的后门攻击可转移性(研究者He等人,2024),以及针对机器翻译模型的特定后门攻击(研究者Wang等人,2024)。和这些研究相比,本研究聚焦于通过改变原始数据集中的语言结构,构建一种通用的后门攻击方法。所以,该方法对任务类型和数据集的原始语言无特殊要求。而且,本研究并非关注跨多种语言的可转移性,而是把多语言输入作为统一的触发条件。
为抵御基于数据投毒的文本后门攻击,研究者们提出多种防御方法。具体来讲,研究者Qi等人(2020)提出的 “洋葱”(ONION),通过去除句子中的每个单词,并监测困惑度变化来识别投毒句子,那些使困惑度显著改变的单词被视作可疑。它对固定词元触发条件效果显著,但对句式触发条件效果欠佳。监督微调(SFT)是另一种常见且易采用的防御方法,能实现较强的防御性能(研究者Sha等人,2022)。该方法不依赖分析投毒数据集的输入文本,而是借助单独的干净数据集进行微调。相较于 “洋葱”,它在抵御如StyleBkd这类更复杂的攻击方法时,展现出更强的有效性。此外,像后门模型检测(研究者Sun等人,2024)、模型权重量化(研究者Liu等人,2024)和后门数据过滤(研究者Yang等人,2023)等方法,也都是减轻后门攻击影响的有效手段。
研究方法
CL-Attack的后门攻击训练主要分为三个步骤:构造跨语言结构、文本分割与翻译、生成污染样本并训练受害模型。
首先,攻击者需要指定一个跨语言结构,即采用固定顺序排列的多种语言(如中-英-德),并确保该结构能够在数据集中隐蔽地存在。然后,攻击者对文本进行分割和翻译,将原始文本划分为多个语义段落,并依据指定的语言结构翻译成不同的目标语言,以维持文本的自然性和流畅性。最后,生成污染样本并训练后门模型,通过在数据集中插入一定比例的跨语言污染样本,使模型在遇到该结构时触发后门行为,而在其他输入情况下仍保持正常功能。
这种方法能够在多种任务和模型架构上有效实施攻击,且现有防御机制难以检测和防御。
实验设置
本研究通过多个文本分类和生成任务来评估CL-Attack的攻击效果,并与现有的后门攻击方法进行比较。实验使用了三个数据集:SST-2(英文情感分类)、MARC(多语言用户评分预测)和MLQA(多语言问答生成)。受害模型包括三种不同规模的LLMs:Llama-3-8B-Instruct、Qwen2-7B-Instruct和Qwen2-1.5B-Instruct,均支持多语言输入。
实验选择了三种基线攻击方法进行对比:BadNL(基于稀有单词的触发器)、SOS(固定句子触发器)和StyleBkd(文本风格触发器)。评估指标包括:攻击成功率(ASR)衡量后门触发的有效性,清洁性能(CP)确保攻击不会降低模型对正常输入的表现,文本相似性(TS)衡量污染样本与原始文本的语义相似度,以及困惑度(PPL)评估文本的流畅性。此外,实验采用 5% 的数据污染率,并在不同的模型和任务上测试CL-Attack的稳健性。
实验结果
实验结果表明,CL-Attack 在所有任务和模型上均实现了接近100%的攻击成功率(ASR),显著优于现有的后门攻击方法。此外,CL-Attack对模型正常任务性能影响极小,在清洁数据上的表现(CP)与未受污染的模型相当,确保了攻击的隐蔽性。
在文本相似性(TS)和流畅性(PPL)方面,CL-Attack生成的污染样本与原始文本的语义变化最小,同时保证了较低的困惑度,避免了句法和风格触发器可能导致的文本异常问题。此外,实验还发现CL-Attack在较低的数据污染率(3%)下仍能保持高攻击成功率,而其他方法的攻击效果随污染率降低而明显下降。这表明 CL-Attack具有更强的隐蔽性和普适性,使其成为一种难以检测和防御的文本后门攻击方法。
论文结论
在本项研究中,研究者们提出了跨语言攻击(CL - Attack),这是一种新型的、着眼于段落层面且针对句子间语言关系的后门攻击方法。研究者们在不同模型的多种任务上开展了大量实验,从经验上证实,CL - Attack有效克服了现有文本后门攻击存在的缺陷。这些缺陷包括易被过滤、缺乏通用性,以及可能导致语义偏移等问题。此外,研究者们还提出了一种可针对性减轻跨语言后门攻击的防御方法。考虑到多语言大语言模型的应用范围持续拓展,研究者们旨在凸显跨语言输入中潜藏的重大风险。
原文始发于微信公众号(安全极客):【论文速读】| 跨语言攻击(CL-attack):通过跨语言触发器进行的文本后门攻击
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论