【论文速读】| CAVGAN：通过对内部表征进行生成对抗攻击，统一 LLM 的越狱和防御

2025年7月9日23:02:56评论3 views字数 8153阅读27分10秒阅读模式

【论文速读】| CAVGAN：通过对内部表征进行生成对抗攻击，统一 LLM 的越狱和防御

基本信息

原文标题：CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks on their Internal Representations

原文作者：Xiaohu Li, Yunfeng Ning, Zepeng Bao, Mayi Xu, Jianhao Chen, Tieyun Qian

作者单位：武汉大学计算机学院，中关村研究院

关键词：大语言模型安全、越狱攻击、对抗防御、概念激活向量、生成对抗网络

原文链接：https://arxiv.org/abs/2507.06043

开源代码：暂无

论文要点

论文简介：本文提出了一种名为CAVGAN的框架，通过生成对抗网络（GAN）学习大语言模型（LLM）内部的安全判断边界，从而实现高效的越狱攻击和防御。实验结果显示，该方法在三个主流LLM上实现了平均88.85%的越狱成功率，同时在最先进的越狱数据集上的防御成功率达到了平均84.17%。这不仅验证了方法的有效性，还揭示了LLM内部安全机制的奥秘，为提升模型安全性提供了新思路。

研究目的：尽管已有多种对齐方法（如强化学习从人类反馈中学习、监督微调、直接偏好优化等），但当前LLM仍容易受到精心设计的越狱攻击。现有研究往往将越狱攻击和防御割裂开来，缺乏对LLM内部安全机制的深入理解。因此，本文旨在提出一种统一的框架，通过越狱攻击指导防御策略，实现攻防一体化。

研究贡献：

统一攻防：基于“攻击可以指导防御”的基本原理，提出了在CAVGAN框架内集成越狱攻击和LLM防御的方法。攻击与防御相互竞争、共同进步，实现了攻防的高度统一。
简化CAV生成过程：不同于以往通过数学优化和正负例嵌入提取扰动向量的方法，本文提出了一种生成扰动向量的新方法，并在此基础上构建了CAVGAN框架。
多场景性能优越：在多个主流LLM上进行了越狱攻击实验，取得了较高的攻击成功率；同时，将CAVGAN框架应用于增强模型的防御能力，显著提升了LLM的保护效果。

引言

随着大语言模型（LLM）在人机交互中的广泛应用，其安全问题日益受到关注。尽管已有多种对齐方法（如强化学习从人类反馈中学习、监督微调、直接偏好优化等）用于提高LLM的安全性，但这些方法仍然无法完全防止恶意查询带来的风险。研究表明，现有的越狱攻击方法主要分为黑盒和白盒两类，其中黑盒攻击通过提示模板隐藏恶意意图，而白盒攻击则通过修改模型内部嵌入来削弱安全机制。然而，这些方法往往只关注攻击或防御的某一方面，缺乏对LLM内部安全机制的系统性研究。

本文提出的CAVGAN框架，旨在解决这一问题。该框架基于LLM解码层的嵌入表示，利用生成对抗网络（GAN）学习LLM内部的安全判断边界，从而实现高效的越狱攻击和防御。具体而言，生成器通过不断学习能够削弱LLM安全机制的扰动，将其注入到LLM的内部嵌入中，使恶意查询难以被识别，从而突破LLM的安全机制。判别器则通过不断学习越狱扰动模式，区分伪装的恶意查询和正常的良性查询，指导模型进行防御。

本文的主要贡献包括三个方面：首先，提出了一个统一的攻防框架，通过越狱攻击指导防御策略，实现攻防一体化；其次，提出了一种生成扰动向量的新方法，简化了CAV的生成过程；最后，在多个主流LLM上进行了实验验证，结果表明CAVGAN在攻击和防御方面均表现出色。

相关工作

2.1 LLM越狱攻击

根据是否了解模型参数和结构，LLM越狱攻击可分为黑盒和白盒两种场景。早期的越狱攻击方法主要在黑盒场景下进行，研究人员从输入侧对LLM进行攻击。通常，越狱提示是手工编写的。一些研究致力于自动化攻击过程，以更高效地进行越狱，他们采用遗传算法或迭代优化来寻找越狱提示。这些方法揭示了LLM安全机制的不足，但缺乏对根本原因的探索。

在白盒场景下，大多数研究人员采用基于规则和数学优化的过程来获取适合越狱攻击的扰动。Zou等人结合贪心搜索和基于梯度的搜索，生成通用且可转移的对抗后缀。受表示工程的启发，Li等人和Xu等人在LLM内部嵌入上应用扰动，破坏安全机制以实现越狱效果。然而，这一过程通常较为复杂，难以推广到其他场景。

2.2 LLM安全防御

传统的安全策略是通过大量训练数据对LLM进行安全对齐，这在时间和硬件资源上成本较高。因此，不需要微调的防御策略更受青睐。一种高效的替代方法是输入过滤。例如，借鉴心理学中的自我提醒，Xie等人提出了一种方法，帮助LLM重新评估传入的提示，可能增强其抵御越狱尝试的能力。

此外，一些研究如Cao等人、Robey等人和Kumar等人采用了在提示中引入随机扰动的方法来检测和防御潜在攻击。大多数这些过滤检测方法仅分析原始查询，导致准确性有限，且严重依赖检测模型的性能。此外，它们并未与LLM的内部安全机制相结合。

最近，Wang等人和Zhao等人提出了知识编辑方法，涉及对LLM中有毒区域的编辑。这些有毒区域指的是更容易生成有毒响应的特定参数或层。通过精确修改这些区域，模型可以被加固以防止有害输出的生成。他们强调对LLM的精确修改，但改变参数可能会引入不可预见的风险。例如，可能导致生成流畅响应的困难，通常导致重复句子。

预备知识

3.1 概念激活向量

概念激活向量（CAV）可以追溯到Kim等人2017年的研究，他们使用概念激活向量测试（TCAV）来量化某些人类可理解的概念对模型性能的影响。Rimsky等人利用正负案例的残差流激活差异计算“控制向量”，证明了将CAV应用于LLM的可行性。

Li等人和Xu等人借鉴CAV的思想，将其应用于LLM安全领域，实现了出色的越狱攻击效果。CAV对模型的可解释性有重要帮助。本研究将利用CAV对LLM内部的安全机制进行深入研究。

3.2 中间层的线性可分性

LLM通常对恶意查询作出相似的响应，表明它们共享一个共同的表示空间。此外，Zhou等人观察到当LLM面对恶意和正常提示时，隐藏层神经元激活模式存在显著差异，使得这些差异易于检测。他们的实验结果表明，几乎每一层的表示都可以很好地区分提示类型。

通过构建一个简单的分类器，可以利用LLM的隐藏层表示来评估原始提示是否包含恶意意图。这一发现表明，正常和恶意查询在LLM中的嵌入表现出强烈的线性可分性，为后续开发更有效的安全检测和防御策略提供了坚实的理论基础。

3.3 越狱攻击的嵌入级表现

许多学者探讨了LLM安全机制在面对越狱攻击时失败的原因。宏观上，越狱攻击的成功可以归因于目标竞争和泛化不匹配。

鉴于LLM内部表示的线性可分性（§3.2），Lin等人采用更细致的视角，探索LLM内部表示空间中的越狱攻击本质。他们观察到成功的越狱攻击具有某些共同特征：越狱攻击后的恶意查询被嵌入到LLM的不安全区域到安全区域。随后，研究者将利用越狱攻击的这一特性，设计研究者的LLM攻击和防御统一框架。

方法设计

在本章中，研究者提出了CAVGAN，这是一个基于表示空间的LLM统一攻击与防御框架。首先，研究者正式定义了LLM安全边界的数学表示，并将越狱攻击重新概念化为表示空间内的动态边界跨越问题。随后，研究者设计了一个GAN，以实现安全概念激活向量（SCAV）的自动学习和自适应生成。最后，通过框架的反向重建，研究者引入了第一个基于LLM内部表示空间生成对抗机制的动态防御算法，从而验证了“攻击即防御”的双向控制范式。

图2展示了CAVGAN框架图示：(a)显示了生成器和判别器的训练过程。生成器和判别器在LLM内部嵌入上进行对抗，以增强各自的性能。(b)描绘了越狱过程：生成器生成扰动并将其注入LLM中间层嵌入以绕过安全机制。(c)说明了防御方法：判别器检测风险并指导模型重新生成。

4.1 问题形式化

考虑一个具有L层的LLM M，它接受q作为输入并生成输出M(q)。模型的内部嵌入为{h0, h1, ..., hL}，其中hl ∈ Rd表示第l层的隐藏状态。设恶意数据集和良性数据集分别为Dm和Db。令hl^m为恶意查询的第l层嵌入，hl^b为良性查询的第l层嵌入。

正如在§3.2中讨论的那样，可以使用一个简单的分类器G来分类LLM的内部嵌入。将hl作为分类器的输入，输出p ∈ (0, 1)表示原始输入具有恶意意图的概率。换句话说，对于输入q及其对应的嵌入h，以下关系成立：

这里p0是一个人工设置的阈值。

嵌入级别的白盒越狱攻击旨在找到一个扰动δ，可以将恶意查询的表示移动到安全区域，从而降低分类器识别其为恶意的概率。形式化表述如下：

参数ε用于约束δ的范数，防止其偏离语义空间。

4.2 CAVGAN框架与越狱方法

为了最小化概念激活向量中的无关特征维度，不同于以往通过使用特定任务的正负例差异或规则引导的迭代优化来提取概念激活向量的方法，研究者将概念激活向量的提取视为一个生成过程。在这个过程中，研究者以LLM的内部表示作为输入，生成对应于预定义概念的概念激活向量。同样，研究者可以将输入Q的内部表示分类操作视为一个识别过程。通过这样做，这两个过程可以纳入生成对抗网络中。

如图2所示，研究者的操作是在LLM解码层的嵌入上进行的。在这里，生成器以恶意查询的嵌入作为输入，生成可用于越狱攻击的扰动向量。根据公式(2)，研究者可以将生成器的目标设置为防止分类器将越狱输入识别为恶意。因此，其损失函数如下：

公式(2)提到的模长约束。研究者没有显式添加这部分损失，而是通过规范化生成器参数的权重间接实现了这一目标。

除了具备区分原始恶意和良性输入的能力外，判别器还需要识别通过越狱尝试扰动的恶意查询。为此，判别器将原始嵌入对应于良性和恶意查询以及恶意查询的越狱扰动嵌入作为输入。因此，判别器的学习目标分为两个不同的部分。首先，在原始输入的情况下，其损失函数如下：

为了能够识别扰动的恶意查询，判别器需要添加第二个学习目标：

判别器的最终学习目标如下：

使用训练好的生成器，研究者可以进行白盒越狱攻击。如图1所示，原始恶意查询被LLM的安全机制拦截，但经过越狱扰动后，这种安全机制失效，LLM输出有害内容。通过利用训练好的生成器，研究者可以进行白盒越狱攻击。如图2左下角所示，最初，原始恶意查询被LLM的安全机制检测并阻止。然而，一旦对恶意查询施加越狱扰动，LLM的安全机制就失效了。因此，LLM继续生成并输出不安全的内容，展示了通过越狱过程成功绕过安全措施。

4.3 攻击引导防御

越狱研究的最终目标是指导模型如何防御。CAVGAN框架不仅可以实现LLM越狱，还可以用于LLM防御。在对抗训练阶段，生成器可以不断学习LLM解码器嵌入中的越狱攻击特征。通过这个学习过程，它获得了敏锐的能力，能够准确识别被越狱技术巧妙隐藏的恶意问题。

研究者可以利用生成器的这一独特能力，为LLM的内部嵌入提供类似于输入过滤的安全保护措施。详细过程如图2右侧所示。当LLM接收查询Q时，其对应的内部嵌入h传递给判别器进行评估。如果判别器检测到输入存在安全隐患，它会反馈给模型输入，指导其重新生成。此外，在再生过程中，会加入风险警告信息。研究者通过前缀提示实现这些风险警告。更具体地说，模型的输出可以形式化如下：

实验分析

5.1 LLM攻击实验

基线：在本研究中，研究者进行了与两种白盒攻击技术的比较。具体来说，研究者考虑JRE（Li等人，2025年）和SCAV（Xu等人，2024年）。

JRE通过嵌入正负例之间的差异来引入扰动。这种方法利用数据本身的差异来创建有针对性的干扰。另一方面，SCAV采用数学迭代优化过程来搜索越狱扰动的最佳解决方案。这种方法系统地优化扰动策略以实现最佳结果。

表1：在三个LLM上使用两个数据集的攻击实验结果如表所示，最优结果用粗体突出显示，次优结果用下划线强调。其中AK、AG、AA、AU和AR分别对应ASR-kw、ASR-gpt、ASR-Answer、ASR-Useful和ASR-Repetition。

表2：研究者提出的越狱攻击方法在两个大型LLM上的实验结果如表所示，AK、AG、AA、AU和AR分别对应ASR-kw、ASR-gpt、ASR-Answer、ASR-Useful和ASR-Repetition。

数据集：在研究者的研究中，研究者使用以下数据集来评估越狱攻击的效果。首先，研究者采用AdvBench有害行为：AdvBench数据集的一个子集（Chen等人，2022年），以下简称Advbench。此外，研究者还包含了StrongREJECT数据集（Souly等人，2024年）。

这些数据集全面涵盖了各种恶意行为。这包括但不限于使用脏话、明确内容描述、威胁、传播虚假信息、歧视性言论、网络犯罪活动以及危险或非法建议。

为了保持与先前研究的一致性，研究者采用与SCAV方法相同的训练数据（Xu等人，2024年）。从AdvBench数据集和HarmfulQA数据集（Bhardwaj和Poria，2023年）中，研究者精心选择了100个恶意数据样本。此外，研究者使用GPT4生成100个相应的良性数据样本。重要的是，研究者选择的训练数据不会在后续测试阶段使用，确保了评估的独立性和客观性。

受害者LLM：为了验证研究者提出的方法的普遍性，研究者特意选择了三个代表性模型：Llama3.1-8B（Grattafiori等人，2024年）、Qwen2.5-7B（Qwen等人，2025年）和Mistral-8B（Jiang等人，2024年）。这些模型被选中以覆盖多样化的架构和特性，为研究者的方法提供了一个全面的测试平台。

此外，为了进一步说明研究者的方法可以有效地应用于不同参数规模的模型，研究者扩展了实验，包括Qwen2.5-14B（Qwen等人，2025年）和Qwen2.5-32B（Qwen等人，2025年）。通过在不同参数规模的模型上进行实验，研究者旨在展示研究者的方法在广泛模型复杂度下的鲁棒性和适应性。

评估标准：研究者从两个关键维度评估越狱攻击的有效性：攻击成功率和文本质量。

表3：在两个LLM上应用防御的实验结果如表所示，最优结果用粗体突出显示，次优结果用下划线强调。

关于攻击成功率，研究者采用了两种评估方法。首先，研究者使用经典的关键词检测方法（称为ASRkw），这是该领域的一种成熟方法。其次，研究者利用GPT-4o进行评估（称为ASR-gpt）。这两种方法用于仔细检查模型的响应是否越过预定义的安全边界。这种双方法策略允许更全面和准确地评估攻击的成功率。

在评估文本质量时，研究者关注关键方面：保持主题相关性、提供有意义的响应以及避免过多无意义的内容。与SCAV方法类似，研究者使用GPT4o来评估三个指标：ASR-Answer、ASRUseful和ASR-Repetition。研究者使用的提示与SCAV方法中的提示一致。有关评估过程和提示的更多细节，请参阅附录A。

结果与分析：攻击实验的结果如表1所示。实验结果表明，研究者的防御方法在处理越狱攻击时实现了较高的越狱成功率。具体来说，对三个LLM进行攻击后，成功突破防御的越狱平均百分比达到97%。

虽然与当前最先进的方法SCAV相比，研究者的方法在Mistral-8B模型上仅实现了更好的结果，而在其他两个模型上仍有轻微差距。研究者认为造成这一差距的主要原因是SCAV使用的数学迭代优化方法可以更明确地约束扰动向量的模长，并更好地找到LLM表示空间偏离到安全区域的方向。

然而，在这次实验中，研究者的主要目标是探索统一攻击和防御框架的可能性。GAN网络使用了一个相对简单的MLP实现，这有很大的改进潜力。如果采用更复杂和自适应的结构，可能会取得更好的结果。

为了全面探索所提出的越狱攻击方法在大规模模型上的泛化能力，研究者在Qwen2.5-14B和Qwen2.5-32B上进行了细致和深入的分析实验。这些实验的结果如表2所示。

这些实验的结果提供了有力的证据，表明CAVGAN在不同参数大小的模型上表现出卓越的适应性，攻击保持其有效性和功能性，表明它不会受到较大参数规模所带来的复杂性显著阻碍。这些发现表明，所提出的越狱攻击方法具有广泛的应用前景，可以有效地扩展到各种实际场景，为LLM的安全研究和模型评估提供有价值的见解和实用解决方案。

5.2 LLM防御实验

基线：研究者选择了两种不需要微调LLM参数的防御方法：SmoothLLM（Robey等人，2024年）和RA-LLM（Cao等人，2024年）。研究者排除了之前在$ S 2 . 2$ 中讨论的知识编辑方法，因为这些方法需要原始有害提示和精心设计的越狱提示，导致泛化能力有限。

数据集：SafeEdit（Wang等人，2024年）是一个专门设计用于评估和增强LLM在文本编辑任务中的安全性的基准，包含多样化的越狱提示模板。相比之下，Alpaca（Taori等人，2023年）包含各种指令-答案对，训练模型遵循复杂的任务指令。在本研究中，研究者使用SafeEdit来评估LLM的防御性能，并使用Alpaca中的良性查询来评估其整体性能。

目标LLM：研究者将防御方法应用于Llama3.1-8B（Grattafiori等人，2024年）和Qwen2.5-7B（Qwen等人，2025年），并进行了实验。

评估标准：研究者使用防御成功率（DSR）的变化来评估防御的有效性，计算方式为DSR = 1 - ASR。为了进一步评估防御对模型整体性能的影响，研究者引入了良性回答率（BAR）。BAR作为重要的指标，反映了模型在实施防御后在正常情况下提供适当回答的能力。

结果与分析：如表3所示，采用防御策略后，研究者的方法在LLM对有害输入的防御成功率上显示出显著优势。实验数据显示，研究者的方法在两个LLM上的防御成功率分别达到92%和78%，比当前无需微调的最先进防御方法高出12%和4%。从数据对比可以看出，研究者的方法在抵抗有害输入方面表现更好。这是因为对抗训练生成器对LLM内部安全判断边界的高拟合度，可以更准确地识别有害输入并采取有效的防御措施，从而大大提高了防御成功率。

同时，得益于判别器的良好性能，研究者没有将正常模型误认为有害并拒绝回答，两个模型的BAR指标均处于较高水平，分别达到91%和93%。这表明研究者的防御措施可以在不负面影响模型正常能力的情况下确保模型的安全性，并在LLM的安全性和实用性之间实现了良好的平衡。

5.3 层选择对结果的影响

在目标层的选择上，研究者将20%的训练集数据分为验证集，并选择效果最好的层。在每层的实验中，研究者发现接近中间的层可以实现最佳的攻击效果。然而，这并不意味着后期层的嵌入不具备这种良好的线性可分性。相反，后期层的ASRKW指数并不低。然而，经过扰动后，LLM输出文本的质量显著下降，出现了大量重复和无意义的字符。经过前期层的扰动，文本质量没有显著下降，但ASR指数非常低。因此，研究者可以认为LLM的内部安全机制是通过每一层逐步形成的。

5.4 训练样本数量对结果的影响

为了观察训练样本数量对CAVGAN性能的影响，研究者在Qwen2.5-7B模型上对Advbench数据集的一个子集进行了额外的实验，以观察不同数量的训练样本下的攻击效果。结果如表4所示。

从表中可以看出：在一定范围内，随着样本数量的增加，攻击成功率也增加，但当样本数量从80增加到120时，性能不再显著改善，开始下降。研究者认为这是由于本文中的生成器和判别器都采用了简单的MLP结构，对于提取复杂语义存在理论上限。此外，由于GAN的特性，当样本数量增加时，训练量增加，导致后期阶段性能波动。

论文结论

本文提出了一种基于生成对抗网络（GAN）的LLM安全框架CAVGAN，通过学习LLM内部的安全判断边界，实现了高效的越狱攻击和防御。实验结果表明，该方法在三个主流LLM上实现了平均88.85%的越狱成功率，同时在最先进的越狱数据集上的防御成功率达到了平均84.17%。这不仅验证了方法的有效性，还揭示了LLM内部安全机制的奥秘，为提升模型安全性提供了新思路。

原文始发于微信公众号（安全极客）：【论文速读】| CAVGAN：通过对内部表征进行生成对抗攻击，统一 LLM 的越狱和防御

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【论文速读】| CAVGAN：通过对内部表征进行生成对抗攻击，统一 LLM 的越狱和防御

WhiteFox：由大型语言模型驱动的白盒编译器模糊测试

专题·人工智能安全 | 大模型安全风险分析与防护架构

人工智能大模型知识库建设通用要求标准共建计划

一文搞懂 | 大模型为什么出现幻觉？从成因到缓解方案

【论文速读】|大语言模型在渗透测试中的惊人有效性研究

大模型基础：模型量化概念与技术详解

安全AI生命周期管理框架：SAIL框架

机器学习常见算法【上】

机器学习在网络安全中的应用

多模态大语言模型｜SPP第139期

发表评论

在线咨询

微信