2023年7月7日10:36:27评论17 views字数 3549阅读11分49秒阅读模式

今天推荐的论文是来自CISPA Helmholtz Center for Information Security张阳研究组的文章Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models，文章主要针对最新的AI绘画模型进行生成内容的安全评估，评估的范围包括一般性的不安全图片(例如色情、暴力)以及用于攻击他人的恶意meme（例如反犹太的梗图）。该工作已被ACM CCS 2023接收。

G.O.S.S.I.P 阅读推荐 2023-07-06 ToxicArtist

如今火热的AI绘画模型（Text-to-Image models）是一种新的人工智能技术，使得用户输入一段文本（prompt），模型能够在几秒之内自动地创作出描绘这段文本的图片。无数用户使用这种模型，例如Stable Diffusion，DALLE，已经创造出了大量的AI生成图片。然而，由于这些模型在训练的过程了使用了大量的互联网数据，其中难免包含色情、暴力以及恶意meme等不安全的图片。这就导致了模型在生成图片的过程中的一大隐患：如果有恶意用户对模型进行诱导，他是否能够批量化地制造不安全图片？事实上，这种隐患已经初露端倪，国外已经有社群用色情图片数据集对AI绘画模型进行再训练，用于批量制造色情图片来牟利；也有一些用户用模型生成恶意meme来攻击、丑化他人（如下图，用Pepe the Frog丑化教皇）。

G.O.S.S.I.P 阅读推荐 2023-07-06 ToxicArtist

在本文中，作者对于目前流行的四种AI绘画模型进行了系统性的安全评估。特别是在模型受到恶意用户诱导的情况下，作者量化了模型批量生成不安全图片的风险。首先，本文先对“不安全”的图片进行了定义，包括色情、暴力、恐怖、仇恨以及政治相关等五个图片类别（见下图）。我们收集了三种恶意的prompt数据集和一个正常的prompt数据集，评估了四种AI绘画模型在上述五个图片类别的生成情况。结果表明，这些模型在恶意prompt的引导下，产生不安全图片的概率高达15.83%-50.56%；甚至当用户输入正常prompt时，模型也有0.5%的概率产生不安全的图片！接着，由于恶意meme易于广泛传播的特殊危害性，本文聚焦于恶意meme（仇恨图片的一种），研究了Stable Diffusion用于批量制造恶意meme的可能性，并且从多角度定量地对比了AI生成meme和传统手动制作meme的差异。结果显示，Stable Diffusion有着高达24%的成功率产生了可以用于攻击他人的恶意meme，而且其质量和手动制作的meme不相上下。特别地，当恶意用户将Stable Diffusion与ChatGPT相结合，能进一步提高AI生成恶意meme的质量，加剧了模型滥用的风险。最后，我们从训练数据集、prompt和图片安全检测器的角度探索了三种防御策略。

G.O.S.S.I.P 阅读推荐 2023-07-06 ToxicArtist

不安全图片的生成情况

Prompt数据集

我们主要利用4chan和Lexica网站收集恶意prompts。4chan是一个匿名社交论坛网站，其Politically Incorrect板块充斥着大量侮辱、仇恨言论以及非法内容。我们从中筛选了500条言论作为第一个prompt数据集；而Lexica是Stable Diffusion驱动的庞大图片数据库，其中也包含了很多不安全的图片以及相应的prompts。我们通过在Lexica网站上使用关键词进行查询，筛选出了404条恶意的prompts作为第二个prompt数据集；在第三个prompt数据集中，我们通过在prompt模板填入不同的恶意关键词生成了30条恶意prompts；最后，我们在MS-COCO数据集中随机挑选了500条文本作为正常prompt数据集，以进行对照。

图片安全检测器

我们将上述prompt数据集输入进四种流行的AI绘画模型：Stable Diffusion，Latent Diffusion，DALLE 2和DALLE-mini，共生成17K图片。其中，我们人工标注了800张，用于训练图片安全检测器。给定一张图片，检测器能够以0.90的准确率检测图片是否安全。对于不安全的图片，检测器可以指明其不安全的类别（色情/暴力/恐怖/仇恨/政治相关）。

安全评估结果

我们发现，模型平均有14.56%的概率生成不安全的图片，其中Stable Diffusion的概率最高，达到18.92%，DALLE 2最低，为7.16%。尤其在三种恶意prompts的诱导下，各模型有15.83%-50.56%的概率产生不安全的图片。而即便是描述普通物体的常用文本（例如MS-COCO数据集），各模型还是有0.5%的概率生成不安全的图片。考虑到这些模型庞大的用户基数和高频使用，很小的概率也可能导致大量的不安全图片在互联网上传播。

原因探索

基于上述结果，我们从两个角度对模型的不安全性及模型之间的差异进行了深入分析：1）训练数据集净化不到位；2）各模型对于恶意prompt的理解程度不同。我们在各模型使用的训练数据集中各随机挑选700K图片进行安全检测，发现其中有3.46%-5.80%的图片都是不安全的。模型在训练的过程中学习到了这些图片的分布，因此他们是模型生成不安全内容的根源。关于模型对于prompt的理解程度，我们发现，如果模型对恶意prompts的理解程度越高，那么其安全性就越低。

恶意meme的生成情况

威胁模型

在现实世界中，用于攻击和丑化他人的恶意meme往往是人为利用Photoshop等工具制作的。最常见的一种情况是用一张已经广为传播的恶意meme，和攻击对象相结合形成一张恶意meme的变体。例如下图的反犹太meme和一个与墨西哥相结合的变体。在这个例子中，墨西哥为攻击对象。现在利用AI绘图模型，恶意用户能否自动化生成恶意meme用来攻击某个体/群体？假设恶意用户拥有模型的全部参数，给定一张恶意meme和待攻击对象，恶意用户可以借助最新的图片编辑技术来自动化生成AImeme变体。

G.O.S.S.I.P 阅读推荐 2023-07-06 ToxicArtist

评估框架

我们首先收集了现实世界中的恶意meme数据集，包括150张真实的meme变体和对应的攻击对象。我们借助BLIP模型为每张meme变体产生标题，用来描述这个变体展现的内容。接着，我们将攻击对象与标题拼接在一起作为prompt。借助不同的图片编辑技术（DreamBooth，Textual Inversion，SDEdit），我们将prompt输入Stable Diffusion生成meme变体。最后，为了对比真实meme变体和AImeme变体的质量，我们设计了三种评估指标：1）图片保真度，即保留了多少原恶意meme的特征，2）语义对齐度，即多大程度上描绘了攻击对象，和3）成功率，即人工标注meme变体是否同时保留了原恶意meme和其攻击对象的特征。

G.O.S.S.I.P 阅读推荐 2023-07-06 ToxicArtist

评估结果

我们用上述框架评估了AI绘画模型在结合图片编辑技术产生恶意meme变体的能力。结果表明，高达24%的恶意meme变体被成功生成并可直接作用于攻击对象。此外，与真实meme变体相比，尤其是使用DreamBooth技术生成的AImeme变体，在图片保真度和语义对齐度方面非常接近。这说明AI合成的meme变体不仅能够保留原恶意meme的典型特征，又能够像真实meme一样描绘攻击对象。

G.O.S.S.I.P 阅读推荐 2023-07-06 ToxicArtist

主要观点

AI绘画模型生成不安全图片的风险是不可忽视的。我们的研究发现目前流行的AI绘画模型都会在不同程度上生成不安全的图片，包括色情、暴力、恐怖、仇恨以及政治相关的内容。特别是恶意meme，用户只需输入一段文本即可自动生成恶意meme，大大降低了恶意meme的制作成本，日后有可能演变为网络暴力活动的有力工具。并且，大语言模型ChatGPT和AI绘画模型结合，甚至无需用户提供prompts即可大规模制作不安全的图片。为了应对这种风险，模型开发者可以从三个方面进行提高：1）更为严格地净化模型的训练数据集，以最大程度降低不安全图片的比例；2）对于在线部署的模型，规范用户的prompt，消除其中的不安全关键词；3）训练更精准的图片安全检测器，除了一般性的不安全图片，应特别注重恶意meme的识别。

论文下载：http://arxiv.org/abs/2305.13873

投稿作者介绍：
瞿艺婷德国亥姆霍兹信息安全中心（CISPA）
目前是德国CISPA在读博士生，研究方向为机器学习隐私安全、Foundation模型的安全性，恶意meme等，相关研究成果以论文的形式发表在国际安全顶级会议IEEE S&P 2023和CCS 2023上。
个人主页：https://yitingqu.github.io/

原文始发于微信公众号（安全研究GoSSIP）：G.O.S.S.I.P 阅读推荐 2023-07-06 ToxicArtist

左青龙
微信扫一扫

右白虎
微信扫一扫

G.O.S.S.I.P 阅读推荐 2023-07-06 ToxicArtist

不安全图片的生成情况

恶意meme的生成情况

主要观点

rgb生态项目bitlight【0成本简单交互】

盘点用于打击深伪技术的 AI 工具

无意的内部威胁：社会工程-9

Linux 搭建Yum源

【DFIR报告翻译】61小时从ScreenConnect 远控到部署Hive勒索软件

在kali linux中安装思源笔记

2023年美国网络攻防演练与政策分析

求解一个简单的RSA题目

AntiDebugSeeker插件，发现我多年的一个问题

刚刚发布《澳大利亚国防战略2024》

发表评论

在线咨询

微信