基本信息
原文标题:Joint-GCG: Unified Gradient-Based Poisoning Attacks on Retrieval-Augmented Generation Systems
原文作者:Haowei Wang†, Rupeng Zhang†, Junjie Wang*, Mingyang Li*, Yuekai Huang, Dandan Wang*, Qing Wang
作者单位:State Key Laboratory of Intelligent Game, Institute of Software, Chinese Academy of Sciences, University of Chinese Academy of Sciences, Beijing, China
关键词:检索增强生成(RAG)、大语言模型(LLM)、中毒攻击、联合优化、对抗样本、安全性
原文链接:https://arxiv.org/pdf/2506.06151
开源代码:https://github.com/NicerWang/Joint-GCG
论文要点
论文简介:本论文围绕当前极为活跃的检索增强生成(Retrieval-Augmented Generation, RAG)系统的安全隐患展开,特别关注随着RAG架构日益普及,由外部知识库带来的“中毒攻击”风险。作者指出,传统攻击方法多将检索器和生成器作为割裂的目标,导致整体攻击效率受限。为此,作者提出了Joint-GCG框架,首创性地实现了检索器-生成器联合梯度优化攻击,通过跨词表投影、梯度分布对齐和自适应加权融合三项技术,打通了端到端的攻击链路。
在大规模多基线对比和消融实验中,Joint-GCG在多种数据集、检索器和生成器下的攻击成功率显著高于以往方法。实验还表明,该方法具备高度的跨模型迁移性及抗部分防御机制能力,对RAG安全体系提出了更高的现实挑战。
研究目的:
该研究致力于分析和解决RAG系统因依赖外部语料而暴露出的新型安全威胁——文库中毒攻击。在现有RAG系统架构中,外部文档检索被有意引入以克服大模型知识截止等问题,但这同时为攻击者插入恶意文档、操纵模型输出打开了门径。现有攻击方法多是针对单一组件独立优化,未能利用组件间的协同效应,限制了攻击的隐蔽性与高效性。
鉴于RAG系统广泛部署于搜索、问答、Chatbot等高价值场景,研究该类系统的系统级复杂性攻击方式不仅能揭示潜在安全薄弱点,也为防御设计和安全评估奠定理论与工具基础。因此,本研究以端到端联合优化方案为目标,系统性剖析检索与生成两阶段联动特性,提升攻击效果,严肃提醒业界对RAG系统更复杂威胁场景的防范必要性。
研究贡献:
-
问题建模创新:首次系统性揭示并建模了RAG现有攻击方案割裂检索与生成优化目标的局限,提出应转向系统级联合优化范式,实现更高效协同的攻击能力。
-
联合优化框架:提出Joint-GCG,对端到端攻击流程中词表、分词等差异进行严谨建模,依次设计“跨词表投影”(CVP)、“梯度分词对齐”(GTA)、“自适应加权融合”(AWF)模块,实现全流程梯度信号打通与动态优化。
-
系统评估验证:在多数据集、多主流检索及生成模型下实施大规模实验,联合优化攻击在平均与极值成功率上显著提升(最高可领先25%)。展示了该方法在批量查询、多模型迁移、部分现实黑盒场景及防御机制下依然表现突出的攻击效果。
引言
近年来,检索增强生成(RAG)技术已成为提升大语言模型(LLM)实际应用能力的主流范式。RAG系统通过检索子系统动态获取外部文档,结合生成器端的条件生成能力,大幅增强了AI对时效性与多样知识的掌控,在搜索引擎、智能问答、代码助手等领域获得快速推广。这一架构有效弥补了大模型“知识截止、幻觉”等内在缺陷,显著提升了输出的正确性和上下文相关性。
然而,RAG系统极大依赖外部开放语料,这一特性同时为攻击者注入恶意文档以干扰系统输出创造了条件,形成独特的“文库中毒攻击”(corpus poisoning)威胁。攻击者可通过精心构造并投放少量中毒文档,一旦被检索器“召回”并输入生成端,即可能导致生成器输出错误信息、偏见乃至有害内容,威胁系统可信性与最终用户利益。伴随RAG领域不断开放关键组件,尤其是在开源环境下,攻击者可轻松仿真目标系统,对架构和模型充分研究,大幅提升了实际攻击的可行性与隐蔽性。
以往的RAG中毒攻击多采用串联优化思路,即分别针对检索器与生成器阶段单独优化中毒文档,导致整体协同效率受限。比如Phantom、LIAR等工作将两阶段分别建模,未能充分挖掘跨组件协作下的协同效应,从而限制了攻击的有效性和潜力。
为突破这一技术瓶颈,作者提出Joint-GCG——首个真正意义上实现检索器与生成器端到端梯度联合优化的框架。论文详细分析了传统方法在词表、分词机制、梯度空间等维度上的信号割裂问题,创新性提出三大关键技术:通过跨词表投影对齐不同模型嵌入空间,利用分词级梯度对齐统一分词粒度表达,最后动态融合攻击目标自适应平衡检索与生成优化力,为攻击流程带来系统级的革新。
大量实验表明,联合梯度优化不仅显著提升了攻击成功率,还带来了潜在的跨组件迁移攻击能力,对当前RAG系统防御机制提出了更严峻挑战。
相关工作与背景综述
RAG(Retrieval-Augmented Generation)系统是为应对大语言模型知识截止、“幻觉”等内在问题而提出的新一代架构。其核心思想是在生成文本前,通过检索模块实时选取外部相关知识片段,为生成器提供权威上下文。这极大提升了LLM在搜索、问答等任务中的事实性与时效性。但同时,依赖外部语料也引入了全新攻击面。
大语言模型本身已被证明易受多种对抗攻击影响。典型如prompt injection通过恶意指令操控输出,训练阶段的数据投毒可引入后门或偏见,而针对输入的梯度优化扰动(如HotFlip、GCG等)则可实现精准跳脱模型期望行为。这些基础性威胁为深入分析RAG系统安全隐患打下理论基础。
在传统机器学习和信息检索领域,数据中毒攻击广泛存在。早期“spamdexing”即搜索引擎注水,利用关键词堆砌等手段提升目标网页排名,体现了对检索排序系统的攻击性利用。进入神经检索阶段,向量检索器对文本嵌入非常敏感,微小扰动即可改变排序结果,使恶意文档进入高检索位。
面向RAG系统的中毒攻击近年来成为关注焦点。PoisonedRAG等方法专注优化文档在检索器中的召回概率,但往往忽略生成端内容操纵,需注入大量文档以有效干扰输出。HijackRAG等尝试prompt泄漏与垃圾生成;串联HotFlip与GCG等方法也存在阶段间优化掣肘。LIAR通过交替优化试图融合两端目标,但实际仍受固定分配和优化步数局限。Phantom引入批量触发器,但检索与生成同样单独优化,导致整体攻击的协同度不足。此外,TrojanRAG聚焦于检索器后门嵌入,与本文假设不同。
现有主流方法通病在于仅在单一阶段极优化,或优化信号割裂,导致攻击整体效力不足。Joint-GCG则首次实现词表、分词、梯度全维度打通的统一联合优化,标志着RAG系统中毒攻击范式进入系统级联动阶段。
威胁模型及攻击假设
本论文采用综合的威胁建模,准确反映现实RAG系统的开放性和潜在攻击途径。首先,假设攻击者对白盒可访问(white-box),即既可获得检索器与生成器全部参数、架构并能计算任意输入的梯度。这一点正契合当前大量开源RAG组件(如开源LLM与向量检索器)被广泛部署,攻击者可据此在本地搭建原型、逆向优化后直接对生产系统发起实际攻击。
对于知识库访问,假设为灰盒(gray-box):攻击者可插入但无法批量篡改或删除语料,且每一目标查询最多注入极少数(通常仅1份)中毒文档,以提升隐蔽性、规避稽查。这与真实C端产品如百科、开源知识库等场景高度契合。Joint-GCG利用系统经常输出的前K检索结果作为观测信号,便于攻击者掌握检索情况并精准优化;作者还尝试了生成式合成语料以在更封闭环境下发起攻击。
更进一步,作者展现了白盒优化生成的中毒文档具备极强跨检索器、生成器迁移能力,攻击者可在本地搭建“影子模型”进行联合优化,后将中毒样本注入真实无参数可见(黑盒)系统,一定程度上实现实际灰盒-黑盒场景下的攻击。
综上,该威胁模型兼顾理论严谨与现实可行性,既方便深入安全机制上限测试,也为RAG系统安全加固提供了逼真攻防蓝本。
Joint-GCG方法详解
为打破现有RAG中毒攻击的阶段隔阂,Joint-GCG提出系统级端到端联合优化框架,将攻击信号自检索器贯穿至生成器。整个方法包含三大技术创新,分别解决了词表割裂、分词粒度不一致和优化目标动态平衡等核心障碍。
首先,检索端与生成端常因独立训练词表和嵌入空间不一致,梯度信号无法直接对齐。为此Joint-GCG设计“跨词表投影”(Cross-Vocabulary Projection, CVP):利用生成器词向量对检索器词向量进行线性组合表示,选取两个模型之间的共享词条,基于自编码器建立嵌入空间映射函数,通过最小二乘法学习整体投影矩阵,实现不同词表之间梯度和语义信息的准确转换。
其次,分词方式差异导致检索端和生成端对同一序列的梯度长短与结构大相径庭。Joint-GCG引入“梯度分词对齐”(Gradient Tokenization Alignment, GTA):将检索端生成的梯度分解映射至字符级,再以各生成器token对应字符的梯度均值回归到生成端token,实现任意token切分方案下的跨模型梯度信号有效对齐,从而为后续联合优化奠定基础。
第三,优化过程中对检索性能与生成操纵权重的动态平衡对于攻击效力与稳健性尤为关键。为此Joint-GCG提出“自适应加权融合”(Adaptive Weighted Fusion, AWF):通过定义检索分数稳定性度量(稳定性指标Dstability),动态调整梯度融合权重(α),使当中毒文档在检索排名提升且与其他文档拉开安全边际时逐步向生成目标侧切换,优化了攻击的持久力和隐蔽性,显著提升了整体成功率。
总流程上,Joint-GCG在联合检索器与生成器模型(白盒)环境下,从中毒序列初始化出发,依次计算各自梯度,经CVP和GTA打通信号,融合后步步优化,最终产出极具针对性的中毒文档。CVP、GTA和AWF三大模块巧妙耦合,确保各阶段信息流畅互通,极大提升了面向复杂异构RAG系统的可迁移性和攻击效率。每个组件在消融实验中均被证明对性能有关键推动作用。
实验设计、结果与分析
作者在实验环节采用了严谨全面的大规模评估方案。首先选取了MS MARCO、Natural Questions(NQ)、HotpotQA三大典型开放域问答数据集,并为每个查询构建包含中毒文档在内的10份“合成文库”,保证检索多样性和实验可控性。检索器方面涵盖了Contriever与BGE两种主流密集向量检索模型,生成端则采用Llama3-8B与Qwen2-7B等开源大模型,确保横向泛化能力。评估指标分为检索攻击成功率(ASRret)、生成攻击成功率(ASRgen)和中毒文档检索平均排序(Posp),每项实验均重复3次防止偶然偏差。
与PoisonedRAG、LIAR及Phantom等SOTA方法系统对比,Joint-GCG在单查询(targeted)、批量查询(batch)等不同场景下,均在检索、生成双指标上大幅领先。典型情形下ASRgen提升5%~25%,高达99%以上, 在检索排名和成功率收敛速度上同样表现优异。且实验进一步证明,在文档数量受限、知识库观测受控等收紧条件下,Joint-GCG依然表现出较好稳健性;迁移测试中,白盒优化产生的中毒文档在不同检索器/生成器间依然具显著攻击力,部分对黑盒模型(如GPT-4o)亦有效果。
消融实验表明,移除CVP+GTA模块(只用生成端梯度)或去除检索器损失都将导致攻击成功率明显下降,AWF权重动态调整优于所有固定权重配置,充分论证了各创新模块协作增益。
防御实验方面,作者检验了基于困惑度(perplexity)过滤与SmoothLLM扰动防御的效果,发现简单过滤仍难以完全抵御联合梯度优化带来的攻击,部分情形下攻击成功率仅小幅下降,提示系统级新型防御机制的迫切需要。
综上,Joint-GCG不仅在攻击效能、效率、泛化性等方面大幅超越现有方法,还为进一步分析与防护RAG系统风险提供了坚实实验依据和启示。
论文结论
本文提出了首个面向RAG系统的联合检索-生成梯度优化中毒框架Joint-GCG,有效打通分阶段优化的关键障碍,通过跨词表投影、梯度对齐、自适应权重融合等创新策略,强化了检索与生成阶段的协同攻击能力。系统性大规模实验验证了该方法在攻击成功率、效率、隐蔽性及跨模型迁移性等多维度优势,并揭露了传统基于困惑度或输入扰动的防御手段难以彻底应对联合优化带来的威胁。
作者在最后讨论了该方法在计算开销、领域泛化性等方面的局限,建议未来工作进一步探索高效优化与更复杂场景下的系统安全防护。总体来看,Joint-GCG的提出不仅推动了RAG安全威胁的理论极限,也为AI系统安全评估与防御研究明确了新的方向和挑战。
原文始发于微信公众号(安全极客):【论文速读】| Joint-GCG:针对检索增强生成系统的统一基于梯度的中毒攻击
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论