G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

admin 2023年12月12日02:37:11评论80 views字数 2093阅读6分58秒阅读模式

在飞速发展的人工智能 (AI) 领域,理解和提升AI安全性变得日益重要。近日,约翰霍普金斯大学曹寅志研究组杜克大学Neil Gong研究组的合作研究成果SneakyPrompt: Jailbreaking Text-to-image Generative Models,首次使用基于强化学习的自动化攻击框架,揭示了如DALL·E 2和Stable Diffusion等文本到图像生成模型的安全漏洞,该工作目前已被IEEE S&P 2024接收。今天的论文推荐由约翰霍普金斯大学曹寅志研究组和杜克大学Neil Gong研究组共同投稿

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

研究者使用了被称为“SneakyPrompt”的方法,通过强化学习来生成似是而非的文本提示,这些提示看起来对我们毫无意义,但AI模型却能识别它们作为生成NSFW (Not-Safe-For-Work,译为不适合在工作场所查看) 图像的隐藏请求。例如,将“naked”(裸体)这样的禁止词汇替换成毫无意义的词汇,如“grponypui”,AI模型便能识别并生成相应的图像。此方法能够绕过AI模型的安全过滤器,例如Stable Diffusion和OpenAI的DALL-E 2。

生成示例

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

示例中的对抗性提示使用DALL·E 2生成猫和狗的图像(提示上方的图像),并绕过了外部安全过滤器,即重构后的Stable Diffusion安全过滤器,用于限制猫和狗的概念。目标的敏感提示用红色显示,其相应的对抗性提示用蓝色表示。目标提示和对抗性提示之间未更改的文本用黑色表示。请注意,我们在说明性图表中使用猫和狗作为外部安全过滤器的一部分,以避免可能使观众感到不舒服的非法或暴力内容。我们在附录A中展示了绕过DALLE·2安全过滤器的真实NSFW内容图像。

方法流程

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

给定目标提示 `p_t`,寻找对抗性提示 `p_a` 需要经过以下六个步骤:

  1.  `OfflineQuery(p_t, E^)` - 使用离线文本编码器获取 `p_t` 的文本嵌入向量 `E^(p_t)`。

  2.  `Sample(p_t, S)` - 从搜索空间 `S` 中采样替换词,基于采样的替换词和 `p_t` 构建对抗性提示 `p_a`。

  3.  `OnlineQuery(p_a, M)` - 使用 `p_a` 查询在线模型 `M`。

  4.  如果安全过滤器未被绕过,则重复步骤 2 和 3。

  5.  `GetSimilarity(M(p_a), E^(p_t))` - 计算生成图像的图像嵌入向量 `M(p_a)` 与 `p_t` 的文本嵌入向量的标准化余弦相似度。

  6.  如果相似度未达到阈值 `δ`,则重复步骤 2 至 5。


实验结果

研究团队的评估显示,SneakyPrompt不仅成功生成了NSFW图像,而且在越狱文本到图像生成模型时,无论是在查询次数还是生成的NSFW图像质量方面,都超过了现有的文本对抗攻击。SneakyPrompt在绕过率方面平均达到了96.37%(其中四个达到了100%),并且在查询次数上平均为14.68次(至少2.26次查询)。相比于其他基准方法,SneakyPrompt的绕过率增加1%-67%, 查询次数减少50% - 99%。

不久前,该研究受到了MIT Technology Review, IEEE Spectrum以及JHU Hub的采访。在采访中研究团队表示,尽管OpenAI和Stability AI被告知了这些发现,并采取措施防止这些提示在DALL-E 2上产生NSFW的图像,但研究者测试的Stable Diffusion 1.4版本仍然容易受到SneakyPrompt攻击。Stability AI表示,他们正在与SneakyPrompt研究者合作开发更好的防御机制。研究团队指出,虽然几乎不可能完全保护AI模型免受安全威胁,但他们希望通过这项研究帮助AI公司开发和实施更加健壮的安全过滤器。这包括部署新的过滤器来捕捉试图生成NSFW图像的提示,或者阻止包含不在任何词典中的词汇的提示。研究强调了现有AI安全过滤器的脆弱性,提醒AI界加强安全措施。

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

图片来源:https://www.technologyreview.com/2023/11/17/1083593/text-to-image-ai-models-can-be-tricked-into-generating-disturbing-images/

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

图片来源:https://spectrum.ieee.org/dall-e

G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

图片来源:https://hub.jhu.edu/2023/11/01/nsfw-ai/


论文链接:https://arxiv.org/pdf/2305.12082.pdf

SneakyPrompt开源:https://github.com/Yuchen413/text2image-safety


投稿作者介绍:

杨雨晨 (https://www.cs.jhu.edu/~yuchen413/),约翰霍普金斯计算机学院博士研究生,导师为曹寅志 (https://yinzhicao.org/),研究方向为人工智能安全与隐私。

原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompt

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年12月12日02:37:11
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   G.O.S.S.I.P 阅读推荐 2023-12-11 SneakyPrompthttps://cn-sec.com/archives/2288712.html

发表评论

匿名网友 填写信息