可诱导AI生成各种有害内容，微软揭示一种强大的人工智能越狱技术

2024年7月4日21:41:15评论41 views字数 885阅读2分57秒阅读模式

微软近日详细介绍了一种名为“Skeleton Key”的越狱技术，可绕过多个领先的人工智能模型的安全防护措施（其中包括来自OpenAI、谷歌的模型）。“Skeleton Key”攻击允许用户规避伦理准则和人工智能防护措施，迫使AI生成诸如爆炸物制作方式等有害内容，凸显了现今各种模型的疏漏之处。

微软Azure的首席技术官Mark Russinovich最初是在五月的Microsoft Build大会上首次讨论了“Skeleton Key”越狱攻击，当时是被称为“Master Key”。Mark Russinovich将其描述为一种多轮策略，能够有效致使人工智能模型忽略其内置的保障措施。而一旦这些防护措施被绕过，模型就无法区分恶意请求和合法请求。

Mark Russinovich详细解释了“Skeleton Key”的运作方式：“‘Skeleton Key’通过要求模型增强而不是改变其行为准则，使其对任何信息或内容请求做出响应，假如其输出内容可能被认为是冒犯性的、有害的或是非法的，则提供警告（而非拒绝）。”这种微妙的方法使得该技术尤其阴险，因为它并不直接覆盖模型的准则，而是以一种使安全措施失效的方式修改它们。

“Skeleton Key”之所以特别令人担忧，原因在于其在多个生成式人工智能模型上的普遍有效性。微软在2024年4月至5月的测试中发现，该技术成功地破坏了几个知名模型，包括Meta Llama3-70b-instruct、谷歌Gemini Pro、OpenAI GPT 3.5 Turbo、OpenAI GPT 4o、Mistral Large、Anthropic Claude 3 Opus、Cohere Commander R Plus。测试中通过Skeleton Key越狱，使这些模型完全遵从了各种风险类别的请求，比如爆炸物、生物武器、政治内容、自残、种族主义、毒品、色情和暴力等。

编辑：左右里

资讯来源：microsoft

转载请注明出处和本文链接

﹀

球分享

球点赞

球在看

戳“阅读原文”一起来充电吧！

原文始发于微信公众号（看雪学苑）：可诱导AI生成各种有害内容，微软揭示一种强大的人工智能越狱技术

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

可诱导AI生成各种有害内容，微软揭示一种强大的人工智能越狱技术

CVSS10分！Pterodactyl Panel远程代码执行漏洞安全风险通告

XDigo 恶意软件利用 Windows LNK 漏洞对东欧政府发动攻击

针对麦克风阵列的激光命令注入攻击

Microsoft Exchange 邮件服务器遭大规模键盘记录攻击，全球逾 70 台被入侵

黑客滥用微软 ClickOnce 和 AWS 服务进行隐秘攻击

黑客利用AI工具搜索结果投毒，传播信息窃取恶意软件

黑客利用伪造的SonicWall VPN应用窃取企业凭证

溯源伪冒火绒背后：FPS雷达透视外挂黑市产销链浮出水面

实战：滥用MCP服务攻击企业AI，窃取企业内部数据 | WinRAR目录遍历漏洞允许通过恶意文件执行任意代码

Alist 疑似被收购引发风波，多个网盘平台紧急撤销授权！

发表评论

在线咨询

微信