USENIX Sec 2025:大模型越狱防御框架——JBShield

admin 2025年4月23日00:34:31评论6 views字数 1370阅读4分34秒阅读模式

       随着大语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱攻击(Jailbreak Attacks)的威胁。这类攻击能够绕过模型的安全防护,诱导其生成不合规的有害内容,带来了显著的安全隐患。

  针对这一问题,武汉大学国家网络安全学院王骞教授团队研究团队深入分析了越狱攻击的机制,并基于线性表示假说(Linear Representation Hypothesis,LRH)提出了一个创新越狱防御框架——JBShield。该框架通过定义并分析两类关键概念:有毒概念(Toxic Concepts)和越狱概念(Jailbreak Concepts),揭示了越狱提示的独特机理。研究发现,大语言模型能够识别提示中的有害语义并激活有毒概念,但越狱提示通过激活越狱概念,将模型的输出从拒绝变为服从。

USENIX Sec 2025:大模型越狱防御框架——JBShield

  JBShield包括两个核心组件:越狱检测和越狱缓解。在检测阶段,该框架通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示;在缓解阶段,该框架通过增强有害概念并削弱越狱概念,调整模型的隐藏表示,从而确保输出内容的安全性。实验结果显示,JBShield在多个开源大语言模型上的平均越狱检测准确率达到95%,并将多种越狱攻击的平均成功率从61%降至2%。

  该研究成果系统性地解析了越狱攻击的作用机制,在技术上突破了传统方法的局限性,为大语言模型的安全性研究提供了可解释的理论框架。同时,该成果的高防御等特性也可以提升

大语言模型在敏感场景中的可靠性。

    该成果“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”发表在CCF-A类会议USENIX Security Symposium 2025。

来源:国家自然科学基金委

2025年国家自然科学基金安全领域部分题目

数据领域常用名词解释(第一批)

2025 CS Ranking排名出炉|上交浙大超北大

2024年国家自然科学基金安全领域部分题目列表

谷歌逆风翻盘暴击OpenAI,90天王者归来!44页报告押注25年三大技术前沿

Gartner发布2025 年十大战略技术趋势

NIST发布首批3项抗量子密码标准

IEEE:后量子密码学之路

NIST抗量子密码算法被爆安全漏洞

IEEE | 识别深度伪造deepfake

吴世忠院士:对生成式AI安全研究的九点观察

去中心化联邦学习:安全和隐私综述

Nature 2024值得关注的技术:Deepfake、脑机接口

手机指纹暴力破解攻击影响安卓和iOS设备

CCS 23:利用SSH签名错误提取RSA密钥

破解NIST椭圆曲线seeds可获1.2万美元奖励

ESORICS 2023:存在超25年的RSA解密漏洞

IEEE S&P24:GPU.zip侧信道漏洞影响主流GPU

ACNS最佳论文:首个抗量子的FIDO2安全密钥实现

基于深度学习的声波攻击可破解键盘输入,准确率达95%

针对大语言模型LLM的对抗攻击

原文始发于微信公众号(信息安全最新论文技术交流):USENIX Sec 2025:大模型越狱防御框架——JBShield

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年4月23日00:34:31
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   USENIX Sec 2025:大模型越狱防御框架——JBShieldhttps://cn-sec.com/archives/3988431.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息