【论文速读】| JailPO：一种针对经过对齐的大语言模型，通过偏好优化实现的新型黑盒越狱框架

admin

145735
文章

119
评论

2025年3月12日21:19:37评论26 views字数 8754阅读29分10秒阅读模式

【论文速读】| JailPO：一种针对经过对齐的大语言模型，通过偏好优化实现的新型黑盒越狱框架

基本信息

原文标题: JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs

原文作者: Hongyi Li, Jiawei Ye, Jie Wu, Tianjie Yan, Chu Wang, Zhixin Li

作者单位: 复旦大学计算机科学学院

关键词: LLM安全, Jailbreak攻击, 偏好优化, 黑盒攻击, 生成式AI

原文链接: https://arxiv.org/abs/2412.15623

开源代码: 暂无

论文要点

论文简介：近期，与人类反馈对齐的大语言模型（LLMs）备受关注。然而，大语言模型仍易遭受越狱攻击，攻击者会通过操纵提示，诱导模型输出有害内容。研究者探究越狱攻击，能够了解大语言模型的弱点，从而进一步提升其安全性。

可惜的是，现有的技术大多依赖手工制作的模板或基于生成的优化方法，在可扩展性、效率和通用性方面面临挑战。为解决这些问题，研究者提出了 JailPO，这是一种全新的黑盒越狱框架，用于检测大语言模型的对齐情况。

为实现可扩展性和通用性，JailPO 通过精心训练攻击模型，自动生成隐蔽的越狱提示。此外，研究者还引入基于偏好优化的攻击方法，增强越狱攻击的效果，提升攻击效率。为分析模型的弱点，研究者提供了三种灵活的越狱模式。

大量实验表明，JailPO 不仅能在保持攻击有效性的同时，实现攻击过程的自动化，而且与基线方法相比，在效率、通用性以及抵御防御措施的稳健性上，都表现得更为出色。

此外，研究者对 JailPO 三种模式的分析发现，基于复杂模板的攻击力度更强，而隐蔽的问题转换则更容易引发危险回复，且更有可能绕过防御机制。

研究目的：随着大规模语言模型（LLMs）在各类任务中的广泛应用，其安全性问题日益凸显。尽管现有LLMs通过强化学习等手段进行了对齐优化，以减少生成有害内容的可能性，但越狱攻击（Jailbreak Attacks）仍能绕过这些安全防护，使模型生成危险、违规或不当的文本。当前的越狱攻击方法主要依赖于两种策略：手工设计的对抗性提示（如角色扮演或场景设定）和基于生成优化的自动攻击（如Token优化）。然而，这些方法各自存在局限性：手工方法可扩展性差，难以适应不断变化的LLMs；基于生成优化的方法主要针对白盒环境，而黑盒场景下适用性有限。此外，许多攻击方法需要大量查询LLMs，导致计算成本高昂。

本研究的核心目标是：能否在黑盒环境下，自动生成高效、通用的越狱攻击提示？为此，本文提出JailPO框架，利用偏好优化（Preference Optimization）技术训练攻击模型，以自动生成更有效的越狱提示，同时减少人工干预和查询成本。通过这一方法，研究不仅能更好地评估LLMs的安全性，还能为未来更稳健的对齐技术提供理论依据。

研究贡献

1. 研究者提出了 JailPO，这是一种创新的黑盒越狱框架。该框架能够借助少量查询实现自动越狱，以此来评估大语言模型（LLM）的漏洞。研究者充分利用大语言模型的表达能力，创新性地提出三种不同的攻击模式，旨在增强框架的适应性与通用性。

2. 为保障攻击效率，研究者对攻击模型加以优化，使其倾向于生成有效的越狱提示，进而更有效地诱导大语言模型出现越狱情况。

3. 经过大量实验验证，无论是面对开源大语言模型，还是商业大语言模型，JailPO 在有效性、效率、通用性以及抵御防御措施的能力等方面，均展现出极为出色的性能。

引言

研究者注意到，大语言模型（LLMs）在泛化能力上取得了惊人进展，已广泛应用于各类场景（Ge 等人，2024）。虽然其潜力备受瞩目，但生成仇恨言论、非法建议和错误信息等令人反感内容的问题也引发了人们的担忧。大语言模型越狱攻击（Zhang、Pan 和 Yang，2023；Deng 等人，2024；Yi 等人，2024），这种试图绕过校准大语言模型防护机制，诱使其生成不良内容的行为，已被视作大语言模型应用中最关键的安全风险之一（Fasha 等人，2024）。所以，研究越狱攻击，探究大语言模型的潜力与安全边界，揭示当下安全风险，对研究者而言极为重要。

当前，关于越狱攻击的研究主要通过两种方式来获取实证成果。一种是利用手工制作的模板，为特定目标精心设计复杂的对抗性提示（Li 等人，2023b；Liu 等人，2023；Wei、Haghtalab 和 Steinhardt，2023）；另一种是采用基于生成的词元优化方法（Zou 等人，2023；Jones 等人，2023）。不过，手工制作攻击虽效果显著，但随着大语言模型的不断发展，可扩展性方面存在局限；而基于生成的方法主要适用于白盒大语言模型，在黑盒使用场景下实用性欠佳。并且，由于对抗性提示需要对大语言模型进行大量查询，现有方法计算成本高昂。基于此，研究者迫切需要一个可扩展、通用且成本效益高的越狱框架，来检测大语言模型的校准情况。

为解决上述问题，研究者提出疑问：自动生成高效且通用的越狱提示是否可行？通过开展初步实验，分析大语言模型的越狱能力以及手工制作攻击的质量，研究者得出两点结论：一是大语言模型具备学习和生成有效越狱提示的潜力；二是不同手工制作模板的攻击效果存在差异。这进一步激发了研究者探索诱导大语言模型创建更有效越狱提示的可能性。

基于这些观察，研究者提出了一种全新的基于偏好优化的越狱框架 JailPO。该框架仅需通过少量查询进行黑盒访问，即可实现自动越狱。为提升可扩展性和通用性，研究者采用两种强大的攻击模型，分别独立生成隐蔽的越狱问题和模板，避免了人为干预。为确保效率，在攻击模型中引入偏好优化方法，以增强对越狱的理解。具体操作是，利用基于越狱检测器的评分策略构建成对偏好数据集，再使用简单偏好优化（SimPO）（Wei、Haghtalab 和 Steinhardt，2023）在这些数据集上训练攻击模型。此外，研究者还提出多种不同的攻击模式，以便灵活评估大语言模型的漏洞。实验结果表明，JailPO 在攻击有效性、效率、通用性以及抵御两种常见防御措施的鲁棒性方面，均表现出色。进一步研究发现，基于复杂模板的攻击更容易绕过模型校准，而涉及隐蔽问题转换的攻击，不仅会引发更高风险的回复，在规避防御方面也更为有效。

相关工作

在对大语言模型（LLM）安全性的深入探索中，研究者提出了一种极具创新性的黑盒越狱框架 ——JailPO。这一框架巧妙地利用少量查询即可实现自动越狱，为评估大语言模型的潜在漏洞提供了新的有效途径。

研究者充分挖掘大语言模型强大的表达能力，开创性地设计了三种独特的攻击模式。这些模式从不同维度对大语言模型发起挑战，显著增强了 JailPO 框架的适应性与通用性，使其能够在多种复杂场景下对大语言模型进行全面检测。

在追求攻击效率方面，研究者精心优化攻击模型，使其能够精准地生成有效的越狱提示。通过这种方式，JailPO 可以更高效地诱导大语言模型突破安全限制，暴露出潜在的安全隐患。

大量的实验结果有力地证明了 JailPO 的卓越性能。无论是开源大语言模型，还是商业大语言模型，JailPO 在攻击的有效性、执行效率、应用通用性以及抵御各类防御措施的能力上，都表现得极为出色，为大语言模型的安全研究提供了极具价值的参考。

研究方法

本研究提出的JailPO框架采用黑盒方式实现自动越狱攻击，主要包括三个模块。首先，研究通过初步实验发现LLMs具备生成隐蔽越狱提示的潜力，并为后续模型训练提供数据支持。其次，构建两种攻击模型：QEM用于生成隐蔽问题，TEM用于生成复杂场景模板。通过监督微调和自我指令数据增强，提升模型对越狱提示的理解和生成能力。最后，利用偏好优化策略，对生成的提示进行评分和对比学习，构建偏好数据集，以指导模型不断生成更具攻击性和通用性的提示。基于此，设计了三种攻击模式：QEPrompt、TemplatePrompt以及二者结合的MixAsking，灵活应对不同LLMs的防御策略。整体方法既降低了人工干预和查询次数，又实现了在黑盒环境下高效自动化越狱攻击，为评估LLMs安全边界提供了新思路。

研究实验

1. 实验设置

在深入研究大语言模型（LLM）安全性能的过程中，研究者提出了创新的黑盒越狱框架 JailPO。该框架借助少量查询即可实现自动越狱，通过充分挖掘大语言模型的表达能力，创新性地提出三种不同攻击模式，增强了框架的适应性与通用性。同时，对攻击模型进行优化，使其倾向于生成有效越狱提示，有效诱导大语言模型出现越狱情况。大量实验表明，JailPO 在有效性、效率、通用性以及抵御防御措施的能力等方面，面对开源和商业大语言模型时均展现出色性能。

为了全面且科学地评估 JailPO 的性能，研究者在实验设计上做了精心安排：

· 数据集：选用在之前研究中被广泛使用的 AdvBench 数据集（邹等人，2023），李等人（2023b）、赵等人（2023）也曾使用该数据集。它包含 520 个请求有害内容的问题，涵盖错误信息、脏话以及危险建议等。需要特别注意的是，研究者用于测试的问题与该数据集的训练集完全不同，以确保测试的独立性和客观性。

· 模型：为保证研究结果具有广泛的通用性，在主要评估中，研究者纳入了三种广泛流行的开源大语言模型以及一种闭源大语言模型。具体包括拥有 70 亿参数的 Llama2、Mistral、Vicuna，以及 GPT-3.5。这些测试的大语言模型均经过安全性校准，能够有效拒绝有害用户指令。其中，70 亿参数的 Llama2 被用作基础模型，用于实例化研究者设计的攻击，以此来探究不同模型在面对相同攻击时的反应。

· 基线方法：为了准确衡量 JailPO 的优势，研究者将其与五种当前最优（SOTA）方法进行对比。对于手工制作的攻击方法，挑选了四种先进的黑盒方法，分别是 SelfCipher（袁等人，2023）、DeepIception（李等人，2023b）、TemplateJailbreak（刘等人，2023）以及 Jailbroken（魏、哈格塔拉布和施泰因哈特，2023）。对于基于生成的攻击方法，则采用开创性的 GCG 方法（邹等人，2023），该方法通过白盒访问下的词元级优化自动生成越狱提示。为确保评估公平，先在 Llama2 上以白盒设置训练 GCG 模型，再在其他目标大语言模型上评估其性能。

· 评估：为了精确判断攻击是否成功，研究者使用两个评估器自动评估攻击结果。其中，ClassJudge 是主要评估器，在前文已有讨论。为进一步减少潜在错误，增强评估的稳健性，研究者引入另一个基于 RoBERTa-large 的评估器（Rob-lg）（于、林和邢，2023），并使用人工标注对其进行微调，从多个角度保证评估的准确性。

· 指标：为便于与之前的实证研究（徐等人，2024）进行对比，研究者引入三个相同的主要指标。假设总共有 e 个问题和 t 次查询尝试，c 表示成功攻破的问题数量，o 表示成功的查询次数。攻击成功率（ASR = (frac{o}{t}) ）是评估越狱攻击有效性的关键指标；问题成功率（QSR = (frac{c}{e}) ）用于衡量生成的越狱提示质量；防御绕过率（DPR）则用于评估对抗防御措施的有效性，它指的是错误绕过防御机制的越狱提示数量占总查询尝试次数的比例。

· 设置：在实验过程中，研究者采用默认设置进行评估，不做任何额外修改，以保证实验条件的一致性。同时，为减少随机变化对实验结果的影响，每个实验均重复进行五次，确保结果的可靠性和稳定性。

2. 主要结果

在完成 JailPO 框架的构建后，研究者对其性能展开了全面评估，主要从攻击有效性、效率和通用性三个关键维度进行分析。

· 攻击有效性：研究者通过为数据集中的每个有害问题精心生成一个越狱提示，并对目标大语言模型的最终回复进行测试，以此来评估 JailPO 的攻击有效性。从表 1 的数据可以清晰地看出，在 ClassJudge 和 Rob - lg 这两个评估器的评估下，JailPO 在攻击成功率（ASR）方面始终能达到或逼近最优水平。值得重点关注的是，在面对所有参与测试的大语言模型时，JailPO 的表现都远远超过了 GCG、Jailbroken 和 TemplateJailbreak 等对比方法，并且其查询次数相较于这些方法少了两个数量级，这无疑有力地证明了 JailPO 在攻击有效性上的卓越表现。

以 Llama2 为例，研究者所采用的模板提示（TemplatePrompt）模式相较于模板越狱（TemplateJailbreak，即方法部分中提及的原始查询集）有了质的飞跃，攻击成功率提升了 6 至 8 倍，这充分体现了偏好优化策略在提升攻击性能方面的显著作用。在所有目标大语言模型中，Mistral 被证实是最容易受到攻击的，JailPO 在 ClassJudge 评估器上针对 Mistral 的攻击成功率高达 55.67%。即便面对闭源且防御机制极为严格的 GPT - 3.5，JailPO 仅通过一次查询，就成功达到了 15.23% 的攻击成功率。此外，将模板提示与问题转换提示（QEPrompt）和混合提问（MixAsking）相比较，在 ClassJudge 评估器上，模板提示的平均攻击有效性分别高出 4.38% 和 4.82%，这一数据表明，在越狱提示中融入具体场景，能够更有效地诱导大语言模型给出肯定回复。不过，研究者在对 Vicuna 进行测试时发现，由于模板的语义过于复杂，导致 Vicuna 无法准确理解，进而生成了不相关的回答。

· 效率：从表 2 的数据可以直观地看出，JailPO 在执行越狱攻击时，仅需最少的查询次数，就能展现出强大的针对问题的有效性，这充分说明 JailPO 能够快速且精准地生成有效的越狱提示。在各类目标大语言模型的测试中，JailPO 在基于 RoBERTa - large 的评估器（Rob - lg）上，问题成功率（QSR）平均提高了 13.71%，在 ClassJudge 评估器上也提高了 4.98%，全面超越了其他基线方法。其中，混合提问在问题成功率方面的优势尤为显著，与模板提示相比，虽然其攻击成功率仅低 4.82%，但在 ClassJudge 评估器上，混合提问的问题成功率平均提高了 8.18%。

· 通用性：令人惊喜的是，即便 JailPO 仅从 Llama2 获取优化反馈，它依然在黑盒访问的各种目标大语言模型上，展现出了令人瞩目的通用性，无论是问题成功率还是攻击成功率，都表现得十分出色。具体来讲，与那些不具备可扩展性的手工制作方法相比，JailPO 实现了越狱过程的自动化，并且在攻击成功率和问题成功率这两项关键指标上都表现优异。与基于生成的方法 GCG 相比，JailPO 在性能提升幅度上更是超过了两倍。综合上述结果，可以明确地得出结论：JailPO 能够高效地执行自动越狱攻击。这种卓越的能力主要得益于 JailPO 充分利用了大语言模型对越狱的理解能力，以及针对问题和模板所采用的偏好优化策略，正是这些因素的协同作用，使得 JailPO 具备了出色的可扩展性、高效性和通用性。

3. 更多结果与分析

在前文对 JailPO 创新的黑盒越狱框架的介绍中，研究者了解到它能通过少量查询自动越狱，评估大语言模型（LLM）漏洞，还利用大语言模型表达能力提出三种攻击模式增强适应性与通用性，通过优化攻击模型保障攻击效率，在面对各类大语言模型时展现出出色性能。接下来，继续深入分析 JailPO 在其他方面的研究成果。

· 高风险回复分析

为评估生成回复中的高风险内容，研究者采用了 Llama Guard（伊南等人，2023）。该工具依据警惕程度，对回复给出 0 到 9 的分数，若分数高于 4，则被判定为高风险内容，高风险内容占比越高，意味着越狱威胁越严重。从图 4 的数据来看，在各类提示方式中，问题转换提示（QEPrompt）生成的高风险内容平均占比最高，达到 30.92%；混合提问（MixAsking）次之，占比为 25.69%；SelfCipher 占比 25.60%。值得关注的是，除了因偏好优化而表现特殊的 Llama2 外，在大多数情况下，融入模板反而可能降低目标大语言模型对高风险回复的检测率。进一步对比发现，直接进行问题转换的问题转换提示，在生成高风险回复方面的能力比模板提示（TemplatePrompt）高出两倍有余，这清晰地表明，在不依赖复杂场景诱导的攻击方式下，模型回复的风险可能会大幅提升。

· 抵御防御策略的性能

研究者针对两种先进的防御机制，对 JailPO 方法以及基线方法展开评估。这两种防御机制分别是困惑度（Alon 和 Kamfonas，2023；Jain 等人，2023）和 LLM - Guard（ProtectAI，2023）。其中，困惑度防御依据 AdvBench 数据集中的请求设定一个阈值，一旦输入消息的困惑度超过这个阈值，就会被拒绝。而 LLM - Guard 是一个广受欢迎的开源项目，主要作用是过滤掉有毒的输入和输出内容。

根据图 5 展示的结果，问题转换提示在这两种防御机制下都有着极为出色的表现，显著超越其他方法。在 Llama2 和 Mistral 上，针对 LLM - Guard 的防御绕过率（DPR）近乎 100%，这充分说明模型生成的隐蔽问题不仅符合正常语义表达，还能成功规避毒性检测。同时，研究者观察到，困惑度防御对具有复杂场景的攻击效果影响显著，像 DeepInception 和 SelfCipher 这类攻击方式，其有效性被降低至 0%。另外，基于模板越狱（TemplateJailbreak）模板构建的模板提示，在 LLM - Guard 上的防御绕过率平均提升了 14.15%，这主要得益于偏好优化，它有效增强了模型绕过毒性检测的能力。最后，混合提问模式融合了问题转换和模板提示两种模式的特点，实现了性能的平衡。

· JailPO 模式分析

通过实验，研究者的结果揭示了关于 JailPO 不同模式的关键见解。问题转换提示主要聚焦于引出问题的隐蔽表达形式，在生成高风险输出方面，相较于模板提示具有 18.64% 的优势，并且它更容易绕过现有的防御机制。反观模板提示，通过整合复杂场景，在攻击有效性上表现突出。以 Mistral 为例，从表 1 中可以看到，这种方法仅通过一次查询迭代，成功率就超过了 50%，这反映出当前大语言模型在面对复杂场景时，其安全校准机制仍存在明显弱点。此外，混合提问模式巧妙结合了问题转换提示和模板提示两种方法，在仅适度增加查询次数的前提下，显著提高了问题成功率，具体数据在表 1 和表 2 中均有体现。这种混合方法在生成高风险输出以及对抗防御措施这两方面，充分平衡了两种单独模式的优势，很好地体现了成本效益。

4. JailPO验证

在大语言模型（LLM）安全研究领域，随着大语言模型应用愈发广泛，其潜在安全漏洞引发关注。研究者聚焦于评估大语言模型漏洞的关键问题，创新性地提出了 JailPO—— 一种全新的黑盒越狱框架。

该框架最大的优势在于，仅需少量查询即可实现自动越狱，这一特性为评估大语言模型的安全性提供了高效途径。为了提升框架的普适性，研究者深度挖掘大语言模型的表达能力，精心设计了三种独特的攻击模式。这三种模式从不同角度出发，能更好地适应各类大语言模型的特点，大大增强了 JailPO 的适应性与通用性，使其能够在多样化的场景下对大语言模型进行全面检测。

在追求攻击效率的过程中，研究者对攻击模型进行了优化，让模型能够精准地生成有效的越狱提示。这种优化后的攻击模型可以更高效地诱导大语言模型突破安全限制，暴露出潜在的安全隐患，从而实现对大语言模型漏洞的有效评估。

通过大量严谨的实验，研究者将 JailPO 应用于开源大语言模型和商业大语言模型。实验结果表明，JailPO 在攻击有效性、效率、通用性以及抵御防御措施的能力等多方面都表现卓越，为大语言模型的安全研究提供了极具价值的参考和新的研究思路。

论文结论

在大语言模型（LLM）的安全性研究进程中，随着其应用范围的不断拓展，模型潜在的安全漏洞逐渐成为研究重点。基于此，研究者致力于探寻一种高效且可靠的方式来评估大语言模型的安全性能，进而创新性地提出了 JailPO—— 一种前沿的黑盒越狱框架。

JailPO 框架的核心优势在于，仅需通过少量查询操作，就能实现自动越狱功能，这为精准评估大语言模型的漏洞提供了一条高效路径。为了进一步提升 JailPO 的适用性，使其能够灵活应对不同类型的大语言模型，研究者深入挖掘大语言模型自身强大的表达能力，精心设计并提出了三种截然不同的攻击模式。这些模式从多个维度出发，针对大语言模型的特点进行攻击，显著增强了 JailPO 框架的适应性与通用性，确保其在复杂多变的应用场景中都能发挥出良好的检测效果。

在追求攻击效率的道路上，研究者对攻击模型进行了深度优化。通过巧妙的算法设计和参数调整，让攻击模型能够精准地捕捉到有效越狱提示的生成规律，使其更倾向于生成具有针对性的、能够有效突破大语言模型安全防线的越狱提示。这种优化后的攻击模型，能够更加高效地诱导大语言模型出现越狱情况，从而更全面、深入地暴露大语言模型的潜在安全隐患。

为了验证 JailPO 的实际性能，研究者开展了大量严谨且全面的实验。实验过程中，涵盖了众多开源大语言模型以及商业大语言模型。实验结果清晰地表明，JailPO 在攻击的有效性、执行效率、适用的通用性以及抵御各类防御措施的能力等多个关键指标上，均展现出了极为出色的表现，远超同类方法。这一成果不仅为大语言模型的安全研究提供了有力的数据支持，更为后续相关研究开辟了新的方向，具有重要的理论与实践价值。

原文始发于微信公众号（安全极客）：【论文速读】| JailPO：一种针对经过对齐的大语言模型，通过偏好优化实现的新型黑盒越狱框架

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【论文速读】| JailPO：一种针对经过对齐的大语言模型，通过偏好优化实现的新型黑盒越狱框架

悟空Agent实战：LLaMA-Factory高危0day漏洞挖掘与修复

图神经网络系列六：GCN优化之GAT与lightGCN

关于AI系统的访问控制，看看权威观点

中山大学｜FORGE：驱动大语言模型自动化构建大规模智能合约漏洞数据集

当ChatGPT接入MCP，你的数据是如何被泄露的？

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

启明星辰发布大模型安全威胁框架（附下载链接）

当好的GPT变坏：如何利用受信任的AI工具进行攻击

专题·人工智能安全 | 政府部门DeepSeek私有化部署的安全管理策略研究

大模型注入攻击和防御

发表评论

在线咨询

微信