G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

2023年12月12日02:37:11评论163 views字数 2093阅读6分58秒阅读模式

在飞速发展的人工智能 (AI) 领域，理解和提升AI安全性变得日益重要。近日，约翰霍普金斯大学曹寅志研究组和杜克大学Neil Gong研究组的合作研究成果SneakyPrompt: Jailbreaking Text-to-image Generative Models，首次使用基于强化学习的自动化攻击框架，揭示了如DALL·E 2和Stable Diffusion等文本到图像生成模型的安全漏洞，该工作目前已被IEEE S&P 2024接收。今天的论文推荐由约翰霍普金斯大学曹寅志研究组和杜克大学Neil Gong研究组共同投稿。

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

研究者使用了被称为“SneakyPrompt”的方法，通过强化学习来生成似是而非的文本提示，这些提示看起来对我们毫无意义，但AI模型却能识别它们作为生成NSFW (Not-Safe-For-Work，译为不适合在工作场所查看) 图像的隐藏请求。例如，将“naked”（裸体）这样的禁止词汇替换成毫无意义的词汇，如“grponypui”，AI模型便能识别并生成相应的图像。此方法能够绕过AI模型的安全过滤器，例如Stable Diffusion和OpenAI的DALL-E 2。

生成示例

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

示例中的对抗性提示使用DALL·E 2生成猫和狗的图像（提示上方的图像），并绕过了外部安全过滤器，即重构后的Stable Diffusion安全过滤器，用于限制猫和狗的概念。目标的敏感提示用红色显示，其相应的对抗性提示用蓝色表示。目标提示和对抗性提示之间未更改的文本用黑色表示。请注意，我们在说明性图表中使用猫和狗作为外部安全过滤器的一部分，以避免可能使观众感到不舒服的非法或暴力内容。我们在附录A中展示了绕过DALLE·2安全过滤器的真实NSFW内容图像。

方法流程

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

给定目标提示 `p_t`，寻找对抗性提示 `p_a` 需要经过以下六个步骤：

`OfflineQuery(p_t, E^)` - 使用离线文本编码器获取 `p_t` 的文本嵌入向量 `E^(p_t)`。
`Sample(p_t, S)` - 从搜索空间 `S` 中采样替换词，基于采样的替换词和 `p_t` 构建对抗性提示 `p_a`。
`OnlineQuery(p_a, M)` - 使用 `p_a` 查询在线模型 `M`。
如果安全过滤器未被绕过，则重复步骤 2 和 3。
`GetSimilarity(M(p_a), E^(p_t))` - 计算生成图像的图像嵌入向量 `M(p_a)` 与 `p_t` 的文本嵌入向量的标准化余弦相似度。
如果相似度未达到阈值 `δ`，则重复步骤 2 至 5。

实验结果

研究团队的评估显示，SneakyPrompt不仅成功生成了NSFW图像，而且在越狱文本到图像生成模型时，无论是在查询次数还是生成的NSFW图像质量方面，都超过了现有的文本对抗攻击。SneakyPrompt在绕过率方面平均达到了96.37%（其中四个达到了100%），并且在查询次数上平均为14.68次（至少2.26次查询）。相比于其他基准方法，SneakyPrompt的绕过率增加1%-67%，查询次数减少50% - 99%。

不久前，该研究受到了MIT Technology Review, IEEE Spectrum以及JHU Hub的采访。在采访中研究团队表示，尽管OpenAI和Stability AI被告知了这些发现，并采取措施防止这些提示在DALL-E 2上产生NSFW的图像，但研究者测试的Stable Diffusion 1.4版本仍然容易受到SneakyPrompt攻击。Stability AI表示，他们正在与SneakyPrompt研究者合作开发更好的防御机制。研究团队指出，虽然几乎不可能完全保护AI模型免受安全威胁，但他们希望通过这项研究帮助AI公司开发和实施更加健壮的安全过滤器。这包括部署新的过滤器来捕捉试图生成NSFW图像的提示，或者阻止包含不在任何词典中的词汇的提示。研究强调了现有AI安全过滤器的脆弱性，提醒AI界加强安全措施。

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

图片来源：https://www.technologyreview.com/2023/11/17/1083593/text-to-image-ai-models-can-be-tricked-into-generating-disturbing-images/

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

图片来源：https://spectrum.ieee.org/dall-e

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

图片来源：https://hub.jhu.edu/2023/11/01/nsfw-ai/

论文链接：https://arxiv.org/pdf/2305.12082.pdf

SneakyPrompt开源：https://github.com/Yuchen413/text2image-safety

投稿作者介绍：

杨雨晨 (https://www.cs.jhu.edu/~yuchen413/)，约翰霍普金斯计算机学院博士研究生，导师为曹寅志 (https://yinzhicao.org/)，研究方向为人工智能安全与隐私。

原文始发于微信公众号（安全研究GoSSIP）：G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

戴姆勒 | 车联网安全面经分享

夏威夷航空报告网络安全攻击

报告：非洲网络犯罪日益严峻，2024年约发现5万起勒索攻击事件

网络安全简史（四）：计算机病毒的商业化和武器化

25岁英国黑客 IntelBroker 落网！窃取超40家机构数据致2500万美元损失

美国冻结价值15亿美元涉黑客攻击的加密货币

跨域人脸伪造识别

折腾一周，还是放弃了

FBI紧急预警：散蛛黑客如何用一通电话，数小时瓦解一家公司？

特朗普暗示美国正在对东大进行黑客攻击

发表评论

在线咨询

微信