导 读
网络安全研究人员揭示了一种新的越狱技术,该技术可用于突破大型语言模型 (LLM) 的安全护栏并产生潜在的有害或恶意响应。
这种多回合(又称多次攻击)攻击策略被Palo Alto Networks Unit 42 研究人员 Yongzhe Huang、Yang Ji、Wenjun Hu、Jay Chen、Akshata Rao 和 Danny Tsechansky命名为Bad Likert Judge 。
Unit 42 团队表示: “该技术要求目标大型语言模型 (LLM) 充当评判员,使用李克特量表(一种衡量受访者对某个陈述的同意或不同意程度的评级量表)对给定反应的危害性进行评分。”
“然后,它要求 LLM 生成包含与量表相符的示例的响应。具有最高李克特量表的示例可能包含有害内容。”
近年来,人工智能的普及度激增,这也导致了一种名为“提示注入”的新型安全漏洞的出现,这种漏洞专门通过传递特制的指令(即提示)来使机器学习模型忽略其预期行为。
一种特定类型的提示注入是一种被称为多次越狱的攻击方法,它利用 LLM 的长上下文窗口和注意力来制作一系列提示,这些提示会逐渐促使 LLM 产生恶意响应,而不会触发其内部保护。这种技术的一些示例包括Crescendo 和 Deceptive Delight。
Unit 42 展示的最新方法是使用大型语言模型 (LLM) 作为评判员,使用李克特心理测量量表评估给定反应的危害性,然后要求模型提供与不同分数相对应的不同反应。
在针对亚马逊网络服务、谷歌、Meta、微软、OpenAI 和 NVIDIA 的六种最先进的文本生成 LLM 进行的广泛类别测试中表明,与普通的攻击提示相比,该技术平均可以将攻击成功率 (ASR) 提高 60% 以上。
这些类别包括仇恨、骚扰、自残、性内容、滥杀武器、非法活动、恶意软件生成和系统提示泄露。
研究人员表示:“通过利用 LLM 对有害内容的理解及其评估响应的能力,该技术可以显著增加成功绕过模型安全护栏的机会。”
“结果显示,内容过滤器可以在所有测试模型中平均将 ASR 降低 89.2 个百分点。这表明,在实际应用中部署 LLM 时,实施全面内容过滤作为最佳实践起着至关重要的作用。”
技术报告:
https://unit42.paloaltonetworks.com/multi-turn-technique-jailbreaks-llms/
新闻链接:
https://thehackernews.com/2025/01/new-ai-jailbreak-method-bad-likert.html
今日安全资讯速递
APT事件
Advanced Persistent Threat
伊朗和俄罗斯实体因利用人工智能和网络战术干预选举而受到制裁
https://thehackernews.com/2025/01/iranian-and-russian-entities-sanctioned.html
美国财政部远程支持平台遭到入侵
https://www.bleepingcomputer.com/news/security/us-treasury-department-breached-through-remote-support-platform/
乌克兰国家登记处遭受网络攻击,婚姻登记和房地产交易中断
https://therecord.media/cyberattack-on-ukraine-state-register-disrupts-real-estate-marriages
Cloud Atlas 部署 VBCloud 恶意软件:超过 80% 的目标位于俄罗斯
https://thehackernews.com/2024/12/cloud-atlas-deploys-vbcloud-malware.html
曹县APT组织利用虚假工作机会部署新型“OtterCookie”恶意软件针对开发人员
https://www.bleepingcomputer.com/news/security/new-ottercookie-malware-used-to-backdoor-devs-in-fake-job-offers/
曹县LazarusAPT组织被发现利用 CookiePlus 恶意软件攻击核工程师
https://thehackernews.com/2024/12/lazarus-group-spotted-targeting-nuclear.html
曹县黑客今年窃取了价值 13 亿美元的加密货币
https://www.bleepingcomputer.com/news/security/north-korean-hackers-stole-13-billion-worth-of-crypto-this-year/
日美指责曹县黑客抢劫 3.08 亿美元加密货币
https://www.infosecurity-magazine.com/news/us-japan-north-korea-crypto-heist/
伊朗迷人小猫部署 BellaCPP:BellaCiao 恶意软件的新 C++ 变体
https://thehackernews.com/2024/12/irans-charming-kitten-deploys-bellacpp.html
一般威胁事件
General Threat Incidents
FireScam Android 恶意软件包含信息窃取和间谍软件功能
https://www.securityweek.com/firescam-android-malware-packs-infostealer-spyware-capabilities/
约有 330 万台 POP3 和 IMAP 邮件服务器缺乏 TLS 加密
https://securityaffairs.com/172600/security/3m-pop3-imap-mail-servers-lack-tls-encryption.html
里士满大学医学中心数据泄露影响 674,033 人
https://securityaffairs.com/172641/data-breach/richmond-university-medical-center-data-breach.html
糟糕的 Tenable 插件更新导致全球 Nessus 代理瘫痪
https://www.bleepingcomputer.com/news/security/bad-tenable-plugin-updates-take-down-nessus-agents-worldwide/
伪装成以太坊工具的恶意混淆 NPM 包部署 Quasar RAT
https://thehackernews.com/2025/01/malicious-obfuscated-npm-package.html
新型 AI 越狱方法“Bad Likert Judge”将攻击成功率提升 60% 以上
https://thehackernews.com/2025/01/new-ai-jailbreak-method-bad-likert.html
伪装成以太坊工具的恶意混淆 NPM 包部署 Quasar RAT
https://thehackernews.com/2025/01/malicious-obfuscated-npm-package.html
超过 300 万台未加密的邮件服务器面临嗅探攻击
https://www.bleepingcomputer.com/news/security/over-3-million-mail-servers-without-encryption-exposed-to-sniffing-attacks/
Azure Airflow 中 Kubernetes RBAC 配置错误可能导致整个集群遭受攻击
https://thehackernews.com/2024/12/misconfigured-kubernetes-rbac-in-azure.html
新的“DoubleClickjacking”漏洞可绕过主要网站的点击劫持保护措施
https://thehackernews.com/2025/01/new-doubleclickjacking-exploit-bypasses.html
法国科技巨头Atos SE遭到勒索软件攻击
http://timesofindia.indiatimes.com/articleshow/116806359.cms
Play 勒索软件团伙声称对 Krispy Kreme 发起重大攻击
https://izoologic.com/region/us/play-ransomware-gang-claims-major-attack-on-krispy-kreme/
Cyberhaven Chrome 扩展程序攻击与扩大供应链活动有关
https://www.securityweek.com/cyberhaven-chrome-extension-hack-linked-to-widening-supply-chain-campaign/
通用动力公司称其员工成为网络钓鱼攻击的目标
https://www.securityweek.com/defense-giant-general-dynamics-says-employees-targeted-in-phishing-attack/
黑客入侵BeyondTrust运营的云服务后远程访问了美国财政部工作站
https://www.securityweek.com/chinese-hackers-accessed-us-treasury-workstations-in-major-cybersecurity-incident/
针对 DVR 和网络摄像头的 HiatusRAT 恶意软件
https://izoologic.com/financial-malware/hiatusrat-malware-found-targeting-dvrs-and-web-cameras/
恶意软件僵尸网络滥用过时的 D-Link 路由器
https://www.techzine.eu/news/security/127452/malware-botnets-abuse-outdated-d-link-routers/
攻击者正在利用 Four-Faith 工业路由器中的命令注入漏洞来部署反向 shell
https://www.securityweek.com/four-faith-industrial-router-vulnerability-exploited-in-attacks/
漏洞事件
Vulnerability Incidents
LDAPNightmare PoC 导致 LSASS 崩溃并重新启动 Windows 域控制器
https://thehackernews.com/2025/01/ldapnightmare-poc-exploit-crashes-lsass.html
PAN-OS 严重漏洞被添加到 CISA 的漏洞列表
https://thecyberexpress.com/pan-os-versions-vulnerability-added-to-cisas/
新的“DoubleClickjacking”漏洞攻击可绕过主要网站的点击劫持保护措施
https://securityaffairs.com/172572/hacking/doubleclickjacking-clickjacking-on-major-websites.html
Microsoft Dynamics 365 和 Power Apps Web API 中存在严重安全漏洞
https://thehackernews.com/2025/01/severe-security-flaws-patched-in.html
针对 Windows LDAP 零点击 RCE 漏洞的 PoC 漏洞利用工具发布
https://cybersecuritynews.com/poc-windows-ldap-rce-vulnerability/
Four-Faith 工业路由器中的命令注入漏洞来部署反向 shell
https://www.securityweek.com/four-faith-industrial-router-vulnerability-exploited-in-attacks/
Palo Alto Networks 修补防火墙0day漏洞
https://www.securityweek.com/palo-alto-networks-patches-firewall-zero-day-exploited-for-dos-attacks/
僵尸网络在最近的攻击中利用了过时的 D-Link 路由器
https://www.bleepingcomputer.com/news/security/malware-botnets-exploit-outdated-d-link-routers-in-recent-attacks/
不安全的物联网云再次来袭:Reyee平台连接设备遭 RCE 攻击
https://claroty.com/team82/research/the-insecure-iot-cloud-strikes-again-rce-on-ruijie-cloud-connected-devices
扫码关注
军哥网络安全读报
讲述普通人能听懂的安全故事
原文始发于微信公众号(军哥网络安全读报):新型 AI 越狱方法“Bad Likert Judge”将攻击成功率提升 60% 以上
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论