新型 AI 越狱方法Bad Likert Judge将攻击成功率提升 60% 以上

2025年1月5日22:45:28评论93 views字数 5549阅读18分29秒阅读模式

导读

网络安全研究人员揭示了一种新的越狱技术，该技术可用于突破大型语言模型 (LLM) 的安全护栏并产生潜在的有害或恶意响应。

这种多回合（又称多次攻击）攻击策略被Palo Alto Networks Unit 42 研究人员 Yongzhe Huang、Yang Ji、Wenjun Hu、Jay Chen、Akshata Rao 和 Danny Tsechansky命名为Bad Likert Judge 。

Unit 42 团队表示： “该技术要求目标大型语言模型 (LLM) 充当评判员，使用李克特量表（一种衡量受访者对某个陈述的同意或不同意程度的评级量表）对给定反应的危害性进行评分。”

新型 AI 越狱方法Bad Likert Judge将攻击成功率提升 60% 以上

“然后，它要求 LLM 生成包含与量表相符的示例的响应。具有最高李克特量表的示例可能包含有害内容。”

近年来，人工智能的普及度激增，这也导致了一种名为“提示注入”的新型安全漏洞的出现，这种漏洞专门通过传递特制的指令（即提示）来使机器学习模型忽略其预期行为。

一种特定类型的提示注入是一种被称为多次越狱的攻击方法，它利用 LLM 的长上下文窗口和注意力来制作一系列提示，这些提示会逐渐促使 LLM 产生恶意响应，而不会触发其内部保护。这种技术的一些示例包括Crescendo 和 Deceptive Delight。

Unit 42 展示的最新方法是使用大型语言模型 (LLM) 作为评判员，使用李克特心理测量量表评估给定反应的危害性，然后要求模型提供与不同分数相对应的不同反应。

在针对亚马逊网络服务、谷歌、Meta、微软、OpenAI 和 NVIDIA 的六种最先进的文本生成 LLM 进行的广泛类别测试中表明，与普通的攻击提示相比，该技术平均可以将攻击成功率 (ASR) 提高 60% 以上。

这些类别包括仇恨、骚扰、自残、性内容、滥杀武器、非法活动、恶意软件生成和系统提示泄露。

研究人员表示：“通过利用 LLM 对有害内容的理解及其评估响应的能力，该技术可以显著增加成功绕过模型安全护栏的机会。”

“结果显示，内容过滤器可以在所有测试模型中平均将 ASR 降低 89.2 个百分点。这表明，在实际应用中部署 LLM 时，实施全面内容过滤作为最佳实践起着至关重要的作用。”

技术报告：

https://unit42.paloaltonetworks.com/multi-turn-technique-jailbreaks-llms/

新闻链接：

https://thehackernews.com/2025/01/new-ai-jailbreak-method-bad-likert.html

今日安全资讯速递

APT事件

Advanced Persistent Threat

伊朗和俄罗斯实体因利用人工智能和网络战术干预选举而受到制裁

https://thehackernews.com/2025/01/iranian-and-russian-entities-sanctioned.html

美国财政部远程支持平台遭到入侵

https://www.bleepingcomputer.com/news/security/us-treasury-department-breached-through-remote-support-platform/

乌克兰国家登记处遭受网络攻击，婚姻登记和房地产交易中断

https://therecord.media/cyberattack-on-ukraine-state-register-disrupts-real-estate-marriages

Cloud Atlas 部署 VBCloud 恶意软件：超过 80% 的目标位于俄罗斯

https://thehackernews.com/2024/12/cloud-atlas-deploys-vbcloud-malware.html

曹县APT组织利用虚假工作机会部署新型“OtterCookie”恶意软件针对开发人员

https://www.bleepingcomputer.com/news/security/new-ottercookie-malware-used-to-backdoor-devs-in-fake-job-offers/

曹县LazarusAPT组织被发现利用 CookiePlus 恶意软件攻击核工程师

https://thehackernews.com/2024/12/lazarus-group-spotted-targeting-nuclear.html

曹县黑客今年窃取了价值 13 亿美元的加密货币

https://www.bleepingcomputer.com/news/security/north-korean-hackers-stole-13-billion-worth-of-crypto-this-year/

日美指责曹县黑客抢劫 3.08 亿美元加密货币

https://www.infosecurity-magazine.com/news/us-japan-north-korea-crypto-heist/

伊朗迷人小猫部署 BellaCPP：BellaCiao 恶意软件的新 C++ 变体

https://thehackernews.com/2024/12/irans-charming-kitten-deploys-bellacpp.html

一般威胁事件

General Threat Incidents

FireScam Android 恶意软件包含信息窃取和间谍软件功能

https://www.securityweek.com/firescam-android-malware-packs-infostealer-spyware-capabilities/

约有 330 万台 POP3 和 IMAP 邮件服务器缺乏 TLS 加密

https://securityaffairs.com/172600/security/3m-pop3-imap-mail-servers-lack-tls-encryption.html

里士满大学医学中心数据泄露影响 674,033 人

https://securityaffairs.com/172641/data-breach/richmond-university-medical-center-data-breach.html

糟糕的 Tenable 插件更新导致全球 Nessus 代理瘫痪

https://www.bleepingcomputer.com/news/security/bad-tenable-plugin-updates-take-down-nessus-agents-worldwide/

伪装成以太坊工具的恶意混淆 NPM 包部署 Quasar RAT

https://thehackernews.com/2025/01/malicious-obfuscated-npm-package.html

新型 AI 越狱方法“Bad Likert Judge”将攻击成功率提升 60% 以上

https://thehackernews.com/2025/01/new-ai-jailbreak-method-bad-likert.html

伪装成以太坊工具的恶意混淆 NPM 包部署 Quasar RAT

https://thehackernews.com/2025/01/malicious-obfuscated-npm-package.html

超过 300 万台未加密的邮件服务器面临嗅探攻击

https://www.bleepingcomputer.com/news/security/over-3-million-mail-servers-without-encryption-exposed-to-sniffing-attacks/

Azure Airflow 中 Kubernetes RBAC 配置错误可能导致整个集群遭受攻击

https://thehackernews.com/2024/12/misconfigured-kubernetes-rbac-in-azure.html

新的“DoubleClickjacking”漏洞可绕过主要网站的点击劫持保护措施

https://thehackernews.com/2025/01/new-doubleclickjacking-exploit-bypasses.html

法国科技巨头Atos SE遭到勒索软件攻击

http://timesofindia.indiatimes.com/articleshow/116806359.cms

Play 勒索软件团伙声称对 Krispy Kreme 发起重大攻击

https://izoologic.com/region/us/play-ransomware-gang-claims-major-attack-on-krispy-kreme/

Cyberhaven Chrome 扩展程序攻击与扩大供应链活动有关

https://www.securityweek.com/cyberhaven-chrome-extension-hack-linked-to-widening-supply-chain-campaign/

通用动力公司称其员工成为网络钓鱼攻击的目标

https://www.securityweek.com/defense-giant-general-dynamics-says-employees-targeted-in-phishing-attack/

黑客入侵BeyondTrust运营的云服务后远程访问了美国财政部工作站

https://www.securityweek.com/chinese-hackers-accessed-us-treasury-workstations-in-major-cybersecurity-incident/

针对 DVR 和网络摄像头的 HiatusRAT 恶意软件

https://izoologic.com/financial-malware/hiatusrat-malware-found-targeting-dvrs-and-web-cameras/

恶意软件僵尸网络滥用过时的 D-Link 路由器

https://www.techzine.eu/news/security/127452/malware-botnets-abuse-outdated-d-link-routers/

攻击者正在利用 Four-Faith 工业路由器中的命令注入漏洞来部署反向 shell

https://www.securityweek.com/four-faith-industrial-router-vulnerability-exploited-in-attacks/

漏洞事件

Vulnerability Incidents

LDAPNightmare PoC 导致 LSASS 崩溃并重新启动 Windows 域控制器

https://thehackernews.com/2025/01/ldapnightmare-poc-exploit-crashes-lsass.html

PAN-OS 严重漏洞被添加到 CISA 的漏洞列表

https://thecyberexpress.com/pan-os-versions-vulnerability-added-to-cisas/

新的“DoubleClickjacking”漏洞攻击可绕过主要网站的点击劫持保护措施

https://securityaffairs.com/172572/hacking/doubleclickjacking-clickjacking-on-major-websites.html

Microsoft Dynamics 365 和 Power Apps Web API 中存在严重安全漏洞

https://thehackernews.com/2025/01/severe-security-flaws-patched-in.html

针对 Windows LDAP 零点击 RCE 漏洞的 PoC 漏洞利用工具发布

https://cybersecuritynews.com/poc-windows-ldap-rce-vulnerability/

Four-Faith 工业路由器中的命令注入漏洞来部署反向 shell

https://www.securityweek.com/four-faith-industrial-router-vulnerability-exploited-in-attacks/

Palo Alto Networks 修补防火墙0day漏洞

https://www.securityweek.com/palo-alto-networks-patches-firewall-zero-day-exploited-for-dos-attacks/

僵尸网络在最近的攻击中利用了过时的 D-Link 路由器

https://www.bleepingcomputer.com/news/security/malware-botnets-exploit-outdated-d-link-routers-in-recent-attacks/

不安全的物联网云再次来袭：Reyee平台连接设备遭 RCE 攻击

https://claroty.com/team82/research/the-insecure-iot-cloud-strikes-again-rce-on-ruijie-cloud-connected-devices

扫码关注

军哥网络安全读报

讲述普通人能听懂的安全故事

原文始发于微信公众号（军哥网络安全读报）：新型 AI 越狱方法“Bad Likert Judge”将攻击成功率提升 60% 以上

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

新型 AI 越狱方法Bad Likert Judge将攻击成功率提升 60% 以上

信息安全漏洞周报【第026期】

Microsoft修复无法访问的Windows Server域控制器

Microsoft Copilot中的严重缺陷可能允许零点击攻击

Windows SMB高危漏洞分析：Kerberos缺陷导致攻击者可获取SYSTEM权限

深度揭秘：你点的我不是机器人，可能正在喂养一个庞大的黑暗广告科技帝国！

网安原创文章推荐【2025/6/14】

Discord邀请链接劫持传播病毒，加密货币钱包面临严峻威胁

英国教育巨头 Pearson 遭遇网络攻击，客户数据泄露

热门Selenium库WebDriverManager曝出CVSS 9.3分的严重XXE漏洞

西捷航空调查破坏内部系统的网络攻击事件

发表评论

在线咨询

微信