USENIX Sec 2025：大模型越狱防御框架——JBShield

2025年4月23日00:34:31评论44 views字数 1370阅读4分34秒阅读模式

随着大语言模型（Large Language Models，LLMs）的广泛应用，其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容，但其仍然容易受到越狱攻击（Jailbreak Attacks）的威胁。这类攻击能够绕过模型的安全防护，诱导其生成不合规的有害内容，带来了显著的安全隐患。

　　针对这一问题，武汉大学国家网络安全学院王骞教授团队研究团队深入分析了越狱攻击的机制，并基于线性表示假说（Linear Representation Hypothesis，LRH）提出了一个创新越狱防御框架——JBShield。该框架通过定义并分析两类关键概念：有毒概念（Toxic Concepts）和越狱概念（Jailbreak Concepts），揭示了越狱提示的独特机理。研究发现，大语言模型能够识别提示中的有害语义并激活有毒概念，但越狱提示通过激活越狱概念，将模型的输出从拒绝变为服从。

　　JBShield包括两个核心组件：越狱检测和越狱缓解。在检测阶段，该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示；在缓解阶段，该框架通过增强有害概念并削弱越狱概念，调整模型的隐藏表示，从而确保输出内容的安全性。实验结果显示，JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%，并将多种越狱攻击的平均成功率从61%降至2%。

　　该研究成果系统性地解析了越狱攻击的作用机制，在技术上突破了传统方法的局限性，为大语言模型的安全性研究提供了可解释的理论框架。同时，该成果的高防御等特性也可以提升

大语言模型在敏感场景中的可靠性。

该成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在CCF-A类会议USENIX Security Symposium 2025。

来源：国家自然科学基金委

2025年国家自然科学基金安全领域部分题目

数据领域常用名词解释（第一批）

2025 CS Ranking排名出炉｜上交浙大超北大

2024年国家自然科学基金安全领域部分题目列表

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

Gartner发布2025 年十大战略技术趋势

NIST发布首批3项抗量子密码标准

IEEE：后量子密码学之路

NIST抗量子密码算法被爆安全漏洞

IEEE | 识别深度伪造deepfake

吴世忠院士：对生成式AI安全研究的九点观察