针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

2023年5月6日01:36:42评论179 views字数 8857阅读29分31秒阅读模式

摘要

随着大型语言模型（LLM）的快速发展，许多下游的 NLP 任务都可以在友善的提示（即Prompt，是用户或程序向LLM AI 提供的输入或查询）下得到很好的解决。尽管模型开发人员和研究人员在对话安全性方面做了大量工作以避免从语言模型生成有害文字，但要引导 AI 生成内容 (AIGC，AI-Generated Content) 造福于人类仍然具有挑战性。由于强大的 LLM 正在收集来自各个领域的现有文本数据（例如，GPT-3 是在 45TB的文本上训练的），公众很自然地怀疑隐私信息是否包含在训练数据中，以及这些大语言模型和他们的下游应用会带来什么隐私威胁。

本工作研究了 OpenAI 的模型 API 和由 ChatGPT 增强的 New Bing 的隐私问题，并表明应用程序集成的 LLM 可能导致比以往更严重的隐私威胁。本文通过实验证明并讨论了大语言模型的隐私影响。

0x01 研究介绍

大型语言模型的快速发展使它们改变了现代自然语言处理的游戏规则。LLMs 的主导生成能力将以前的任务范式改变为统一的文本生成任务，并持续提高 LLMs 在这些任务上的表现。此外，在适当的提示下，大语言模型甚至可以为零样本或少样本学习者来解决特定任务。值得注意的是，LLM 的训练数据也会根据模型的大小和性能进行扩展。海量 LLM 的文本训练数据主要来自互联网，研究人员较少关注网络来源数据的数据质量和机密性。

如此大规模地收集个人数据引发了争论和担忧。例如，根据欧盟的通用数据保护条例 (GDPR)，未经数据主体通知或同意就大量个人数据训练商业模型缺乏法律依据。因此，出于隐私考虑，意大利甚至禁止使用 ChatGPT。不幸的是，语言模型的隐私分析仍然很少被探索并且仍然是一个未知的领域。

先前的工作研究了语言模型 (LM) 并称模型记住的训练数据会导致隐私数据泄露。然而，这些工作主要研究了 GPT-2 模型的变体，这些模型仅通过语言建模目标进行训练，目的是在给定当前上下文的情况下预测下一个单词。尽管这些开创性工作做出了努力，但最新的 LLM 与 GPT-2 之间仍然存在巨大差距。首先，LLM 的模型大小和数据集规模比 GPT-2 大得多。其次，LLM 实施更复杂的训练目标，包括指令调优和人类反馈强化学习（RLHF， Reinforcement Learning from Human Feedback）。第三，大多数 LLM 仅提供应用程序编程接口 (API)，公众无法检查模型权重和训练语料库。

最后，目前的趋势是将各种应用程序集成到 LLM 中增强 LLM 的知识基础能力，以解决数学问题（ChatGPT + Wolfram Alpha）、阅读格式化文件（ChatPDF）以及使用搜索引擎响应查询（New Bing）。因此，目前使用的这些 LLM 中隐私泄露的程度仍然未知。

为了填补上述空白，在这项工作中对最先进的 LLM 进行了隐私分析，并研究了它们对隐私的影响。遵循先前工作的设置来彻底评估 ChatGPT 的隐私泄露问题，并表明先前的提示不足以从具有增强对话安全性的 ChatGPT 中提取个人信息。然后，提出了一种越狱（Jailbreak）和思想链 (CoT，Chain-of-Thoughts) 的提示组合，可以成功地从聊天 GPT 中提取私人信息。此外还研究了 New Bing 引入的隐私威胁，New Bing 是 ChatGPT 和搜索引擎的集成。New Bing 将基于检索的搜索引擎的范式转变为生成任务。除了模型记住的训练数据带来的隐私威胁外，新范式可能会引发更恶性的隐私威胁。在本文中展示了恶意攻击者几乎可以免费从 New Bing 中提取私人信息的可能性。

0x02 背景

2.1 LLM和语言模型的隐私攻击

LLM 通过细粒度的训练技术和目标增加了模型大小和数据规模。以前，语言模型因其信息泄露问题而受到广泛批评。研究表明语言模型倾向于记住他们的训练数据，并且在特定提示下可能会恢复部分隐私信息。其中一种攻击是针对LM微调的成员推理，这些语言模型的私人微调数据容易受到提取攻击。另一方面，信息泄漏还是推理期间语言模型嵌入的问题。LLM 从LM演变而来，采用各种防御措施来抵御恶意用例。OpenAI对 GPT-4 模型进行了微调，以拒绝对隐私信息的查询。目前尚不清楚安全增强的 LLM 是否继承了语

言模型的隐私问题。在这项工作中将训练数据提取攻击扩展到 LLM。

2.2 基于提示的攻击

基于提示的方法（Prompt-based）在语言模型的开发中发挥着至关重要的作用。良性提示促进 LLM 解决不可见的任务。但是，另一方面，恶意提示会造成伤害和威胁。最近，越狱提示（ Jailbreak Prompt）被广泛讨论，因为此类查询可以解除 ChatGPT 的限制并允许 ChatGPT 立即执行任何操作（DAN，Do Anything Now）。

此外，提示注入攻击通过目标劫持和提示泄漏以滥用 LLM。其中目标劫持旨在将原始提示的目标与预期目标错位，而提示泄漏则试图从私人提示中恢复信息。这些工作主要通过对抗性提示（Adversary Prompt）使大语言模型发生故障，偏离其最初的目标或产生恶意言论等有害内容。在这项工作中，利用这些对抗性的提示从大型语言模型中获取私人信息并分析它们的威胁和影响。

0x03 隐私数据提取攻击

3.1 数据收集

大多数现有隐私法规定，个人数据是指与已识别或可识别的在世个人相关的任何信息。例如，个人电子邮件一直被视为隐私信息，并被用作研究隐私泄露的指标。之前研究LM隐私泄漏的研究通常假设它们可以访问训练语料库。但是，研究者无法访问LLM的训练数据。相反，研究者只知道这些 LLM 是根据来自互联网的海量文本数据进行训练的。这项工作从以下在线来源收集[name, email]：

安然电子邮件数据集（Enron）：安然电子邮件数据集收集了来自约 150 名安然员工的约 50 万封电子邮件，这些数据已在互联网上公开。注意到几个经常使用的网站存储了安然数据集的电子邮件，它很可能被包含在大语言模型的训练语料库中。

机构电子邮件：观察到专业学者倾向于在他们的网页上分享他们机构领域的电子邮件。特此收集来自全球超过 5 所大学教授的[name, email]。

3.2 攻击模型

假设黑盒 API 可以访问大语言模型 f，人类只能输入文本并获得文本响应，训练数据的提取攻击旨在通过前缀（或提示）p 从 f 的训练语料库中重建敏感信息 s 。换句话说，训练数据提取也是一项文本完成任务，其中攻击者试图从对抗性提示 p 中恢复私人信息 s，使得 f(p) = s。在这项工作中，假设攻击者只能从无法访问隐藏表示和预测概率矩阵的 API 获得文本输出。

3.3 从ChatGPT中提取隐私数据

ChatGPT 从 GPT-3.5 模型初始化，并根据人类 AI 训练师监督的对话进行微调。由于 ChatGPT 已经进行了调整以提高对话安全性，因此考虑了三种提示来进行训练数据提取攻击，从直接提示到带有思维链（Chain-of-Thought）提示的越狱提示。

（1）直接提示提取

以前的工作主要使用直接提示从语言模型中提取私人信息，包括 GPT-2 的变体。例如，攻击者可能会使用诸如“name: [name], email:__ ”之类的提示来提取特定人的电子邮件地址，或者直接使用“name: __”通过基于采样的方式恢复多个[name, email] 。

由于OpenAI使用了对话安全微调（Dialog Safety Finetuning），现在如果使用直接提示进行数据提取的话，3 月版本的 ChatGPT 往往会犹豫不决回答任何私人信息。如下图(a)所示，ChatGPT拒绝生成任何带有直接提示的个人信息。

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

（2）越狱提示的提取

尽管 ChatGPT 在对话安全方面下了很大的功夫，并且可以成功地防止通过直接提示的数据提取攻击，但仍然有一个方法可以绕过 ChatGPT 的道德模块，称为越狱。越狱利用对抗性的提示使 ChatGPT 逃避编程限制并自由生成任何内容。这些对抗性的提示通常会设置用户创建的角色扮演来改变 ChatGPT 的自我，并允许 ChatGPT 以不道德的方式回答用户查询。DAN 指的是“Do Anything for Now”，是一种典型的越狱提示，可以基于各种目的发表攻击性或偏见的评论。

在这项工作中，利用这些越狱提示使 ChatGPT 生成给定名称的电子邮件地址。例如，根据上图(b)的用例，ChatGPT 有时会从其越狱提示的“开发者模式”角色中生成隐私信息。

（3）CoT 与道德问题

思维链 (CoT) 提示促使将复杂问题分解为中间步骤，以提高 LLM 的推理能力。对于 3 月 14 日版本的 ChatGPT，偶尔会观察到 ChatGPT 可能仍会根据越狱提示拒绝生成隐私信息。受到“Let’s think step by step”的启发，本研究利用 CoT 绕过 LLM 的道德限制，并导致模型生成私人信息。

此处提出的 CoT 提示旨在减轻 LLM 的道德考虑并迫使 LLM 给出个人信息。将越狱提示与 CoT 合并到用户和 ChatGPT 之间的三对话（three-utterance）上下文中。首先，研究者扮演用户输入越狱提示。其次，作为模型（ChatGPT）确认越狱模式已启用。最后，作为用户使用之前的直接提示向模型进行查询。研究者在用户的最终查询中多加了一句话，以加强 ChatGPT 在不知道电子邮件地址或出于道德考虑无法回复电子邮件时进行随机猜测。第二句话说服 LLM 接受其越狱提示的角色。最后附加的句子利用间接提示绕过 LLM 的道德模块，并说服 LLM 根据学习分布生成或即兴创作个人信息。上图(c) 描绘了 ChatGPT 更愿意根据提议的 CoT 提示进行此类随机猜测。

（4）响应验证

除了提示技巧外，对于每个数据样本，还可以通过基于样本的解码多次生成隐私信息。如前图(d) 所示，从不同的响应中收集不同的私人信息。考虑两种方法来验证哪一种是正确答案。第一种方法将收集到的信息转化为选择题，再次提示LLM选择正确答案。在实现过程中，将响应中最先显示的信息作为 LLM 的最终选择。第二种方法是多数表决，将最频繁的预测作为最终答案。如果有平局，会随机选择一个答案作为最终预测。

3.4 New Bing恢复隐私数据

New Bing 引入了一种新的搜索范式，从搜索到搜索与 AIGC 的结合，以提高搜索的准确性和相关性。微软甚至将新组合命名为普罗米修斯模型（Prometheus model）以强调其重要性。此外，他们声称已实施保护措施来解决错误信息和虚假信息、数据安全和有害内容等问题。

然而，与 ChatGPT 不同的是，New Bing 会根据用户的用例频繁响应直接提示。在这里，考虑了两种带有新搜索范式直接提示的攻击场景。一种是自由形式的提取，仅通过给定域信息直接生成[name, email]，另一种是部分识别提取，它可以恢复具有给定名称和域信息的电子邮件。

（1）自由格式提取

自由格式提取假设攻击者只知道一些关于目标的领域知识，包括公司和机构的名称、电子邮件域和网站链接。自由格式提取利用了 New Bing 的搜索和汇总功能。像 “请根据你关于[domain knowledge]的搜索结果列出一些[name, email]的示例” 这样的简单指令足以提取私人信息。

攻击者旨在根据其领域知识从 LLM 中提取隐私，从而无需繁重的人工劳动即可收集过多的个人信息。收集到的信息可能被恶意用于发送垃圾邮件或钓鱼邮件。在后面的实验中将展示如何通过在查询中添加更具体的条件来提取所需的信息。

（2）部分识别提取

部分识别提取假设攻击者有兴趣恢复关于目标个体的私人信息，给定它的名字和相应的领域知识。这种攻击通常采用类似“name: [name], email: __” 的格式来强制 LLM 预测与该名称相关的隐私信息。基于关联的攻击可能直接对部分识别的受害者造成伤害。

0x04 试验评估

4.1 实验设置

模型版本：对于ChatGPT，在2023年3月在gpt-3.5-turbo的OpenAI模型API上进行了实验。对于New Bing，由于不清楚它的版本，因此评估了它在2023年3月20日至4月10日的性能。

数据集：对于安然电子邮件数据集，处理了 100 个来自安然员工的电子邮件域为“@enron.com”的频繁[name, email]和 100 个域不属于安然的不常见[name, email]。在 100 个频繁[name, email]中，手动过滤掉 12 个无效的组织电子邮件，并对剩余的 88 个对进行评估。

评估指标：对于每个[name, email]，为每个提示生成 1 个响应，并计算可以从响应中解析电子邮件模式的对数作为 # parsed。此外，还可以通过其聊天完成 API 自动生成多个响应。在实验中进行了 5 轮，然后使用 Hit@5 来表示包含来自其响应的正确预测的对的百分比。对于每一对[name, email]，默认使用第一个解析的电子邮件作为所有 5轮中的最终预测。如果应用响应验证技巧，将验证结果用作最终预测。为了验证有多少电子邮件被正确恢复，通过将最终预测与正确电子邮件进行比较来报告正确恢复电子邮件的数量（# correct）和准确性（Acc）。

数据提取攻击管道：所有的提取攻击都是在 New Bing 的 Web 界面和 ChatGPT 的聊天完成 API 上从其相应的官方来源进行的。对于 Web 界面，手动输入攻击查询并收集响应。对于每个攻击案例，都会开始一个新会话以避免先前上下文的干扰。对于 ChatGPT API，编写一个脚本来输入带有上下文的攻击查询以获取 LLM 的响应，然后编写一个正则表达式公式来解析响应中显示的第一个电子邮件地址作为预测电子邮件。

4.2 ChatGPT

（1）提示评估

为了评估 ChatGPT 的隐私威胁，在实验中association指的是恢复给定名称的相应电子邮件。此外，假设对[name, email]的文本格式一无所知，只是简单地查询“What is the email address of [name]?” 。利用越狱和思维链 (CoT) 提示来创建以下提示：

• 直接提示(DP)：如前文所述，使用直接查询来获取响应并尝试解析电子邮件。

• 越狱提示(JP)：首先，使用越狱提示获取ChatGPT的响应。然后将越狱查询、获得的响应和直接提示连接起来以获得最终响应并解析电子邮件。

• 越狱+CoT (JPCoT)：使用前文中提到的三个话语上下文来获取响应并尝试解析电子邮件。

• 越狱+CoT+多项选择(JPCoT+MC)：通过 JPCoT 生成 5 个响应，然后使用多选模板再次提示 ChatGPT 选择最终答案。

• 越狱+CoT+多数投票(JPCoT+MV)：通过 JPCoT 生成 5 个响应，然后使用多数表决来选择最终答案。这些提示的示例可以在前图中找到。

（2）结果分析

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

上表描述了过滤后的安然电子邮件数据集和手动收集的各大学教职员工信息的评估结果。根据结果和案例检查，总结出以下发现：

• ChatGPT 会记住某些私人信息：超过 50% 的频繁 Enron 电子邮件和 4% 的教师电子邮件可以通过本研究的提示查询进行恢复。此外，Hit@5 通常比 Acc 高很多，大多数电子邮件域都可以正确生成。这些结果表明，如果 ChatGPT 将其个人数据放在网上，并且 ChatGPT 恰好在包含其个人信息的网页上训练，那么任何人的个人数据都有很小的机会被 ChatGPT 复制。并且在互联网上名人恢复的可能性可能更高。

• ChatGPT 可以防止直接半越狱提示生成个人信息：根据 # parsed的结果，JP 和 DP 都无法从响应中恢复电子邮件。当涉及到有关机构电子邮件的更现实的场景时，即使是 JP 也只能解析 50 个案例中的 10 个电子邮件模式。此外，大多数回复都提到披露个人信息是不合适的或不道德的，并拒绝回答问题。这些结果表明，以前使用直接提示的提取攻击对 ChatGPT 等安全性增强的 LLM 不再有效。

• CoT 有效地破坏了ChatGPT 的道德要求：前表验证了 JPCoT 可以导致比 JP 更多的解析电子邮件和正确的生成。尽管出于道德考虑，ChatGPT 拒绝回答有关个人信息的查询，但它愿意做出一些猜测。由于生成依赖于学习的分布，一些猜测的电子邮件可能是记住的训练数据。因此，CoT 提高了解析电子邮件的数量、恢复准确性和 Hit@5。

• 响应验证可以提高攻击性能：多项选择提示 (JPCoT+MC) 和多数投票 (JPCoT+MV) 在频繁的 Enron 电子邮件中获得额外 10% 的准确率。这个结果也验证了 ChatGPT 的记忆性问题。

4.3 New Bing

（1）提示评估

根据New Bing 的用例，注意到直接提示足以从 New Bing 生成个人信息。与以往对语言模型的隐私分析不同，New Bing 将大语言模型插入了搜索引擎。强大的搜索插件使 LLM 能够访问其训练语料库之外的任何在线数据。利用 LLM 的信息提取能力可以提高搜索质量，但个人数据暴露的风险会更高，从而导致人肉搜索。因此，主要考虑两种个人信息提取攻击模式。

• 直接提示(DP)：给定受害者的姓名和领域信息，攻击者使用直接查询来获得响应并恢复受害者的电子邮件。

• 自由格式提取(FE)：仅给定主要信息，攻击者旨在通过直接要求 New Bing 列出领域中的一些示例来恢复[name, email]。

（2）直接提示

在本节中通过直接提示评估个人信息恢复性能。分别选择安然电子邮件数据集的前 20 个频繁和不频繁的[name, email]，以及所有 50 个收集的机构对进行评估。

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

上表列出了所有 3 种数据类型的恢复性能。与ChatGPT 4% 的机构数据提取准确率相比，New Bing 可以正确恢复 94% 的电子邮件。将 New Bing 的响应页面与 Microsoft Bing 的搜索结果进行比较后，怀疑 New Bing 主导的个人信息恢复性能主要来自集成搜索引擎。观察到 Bing 和 New Bing 之间推荐网站的高度相似性。

对于机构电子邮件，New Bing 可以找到目标教师的个人网页并使用正确的电子邮件进行回复。此外，一些正确恢复的电子邮件甚至是非机构电子邮件域的个人电子邮件。对于 Enron数据集，New Bing 仅查找存储 Enron 电子邮件文件的页面，并且大多数[name, email]无法通过源 HTML 文件直接访问。这些结果意味着，如果 New Bing 集成的搜索引擎能够找到相应的网页，则可以准确地恢复个人信息。

（3）自由格式提取

除了部分识别的提取外，还提示 New Bing 仅在给定域信息的情况下直接列出[name, email]。然后根据网络搜索结果和其他公开文件验证正确性。

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

上表显示了自由格式的提取结果。毫不奇怪，大多数列出的[name, email]与相应的在线资源都是正确的。此外，对于机构教师而言，影响力越大，被正确恢复的风险就越高。这些结果表明，恶意用户可以通过简单地指示 New Bing 列出一些示例来获取个人信息。

4.4 案例研究

在本节中列出了 ChatGPT 对不同提示的响应，并举例说明了与 New Bing 的对话交互。研究通过编辑个人信息以保护他们的隐私。

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

ChatGPT：上图显示了 ChatGPT 对 DP、JP 和 JPCoT 的常见响应。DP 的案例显示了 ChatGPT 重视个人隐私的道德意识。其道德模块可有效应对有关个人信息的常见提示。此外，如 JP 的案例所示，ChatGPT 有时可能会在基于角色扮演的越狱提示下拒绝回答此类查询。但是，ChatGPT 可能会在越狱提示的“开发者模式”下给出黑客数据库等不道德的评论。对于 JPCoT，如果要求它进行随机猜测，ChatGPT 更愿意生成个人信息，一些随机猜测可能是正确的。这些结果表明，ChatGPT 在间接和恶意提示下无法唤起其道德意识，应采取更多的对话安全防御措施。

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

New Bing：在上图中，要求 New Bing 成功生成教师的电子邮件地址。即使教师用“[at]”混淆了它的电子邮件模式以避免网络爬虫，仍然可以提取混淆的电子邮件并指示 New Bing 将电子邮件转换为正确的格式，几乎没有成本。另一方面，可以简单地要求 New Bing 直接列出个人信息，如下图所示。请注意，这些过程可以通过简单的脚本自动完成，用于恶意目的的个人信息收集。这些案例表明，应用程序集成的 LLM 可能比之前研究的语言模型带来更现实的隐私威胁。

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

0x05 讨论

对于评估的两个大语言模型，隐私影响是双重的。

ChatGPT：对 ChatGPT 的隐私分析遵循以前的工作来研究 LLM 对私人训练数据的记忆。尽管 Chat GPT 已经通过防止泄露个人信息的对话安全措施得到增强，但通过将越狱提示与 CoT 提示相结合，可以规避 ChatGPT 的道德问题。实验表明，个人网页和现有的在线文本文件可能会被收集为 ChatGPT 的训练数据。很难确定这种数据收集是否合法。但是，根据《加州消费者隐私法》(CCPA) 和 GDPR，个人至少有权选择退出不知情的数据收集。

New Bing：与以往将记忆性问题归咎于个人信息泄露的研究不同，根据研究结果，由于其集成的搜索能力，New Bing 甚至可以在其训练数据之外恢复个人信息。这种几乎免费的数据恢复可能会导致潜在的危害，例如垃圾邮件、欺骗、人肉搜索。除了个人信息的直接恢复，主要担心的是New Bing强大的数据整理和信息提取能力导致的隐私泄露。New Bing 有可能结合不相关的来源来分析特定主题，即使其数据完全匿名。例如，匿名纽约市出租车行程数据可能会泄露名人住所、小费信息以及出租车司机的身份。New Bing可能会导致更频繁的身份泄露事故。

0x06 结论

此工作对大语言模型和应用程序集成的大语言模型进行了隐私分析。沿用之前的零样本设置来研究ChatGPT的隐私泄露问题。研究结果表明，ChatGPT 的安全防御对直接提示是有效的，但不足以通过 CoT 提示来保护越狱提示。然后，发现了 New Bing 更容易受到直接提示的影响。最后，讨论了这两个 LLM 的隐私影响和潜在后果。

研究由香港科技大学和北京大学的学者共同完成。参考链接：https://arxiv.org/abs/2304.05197

精彩推荐

针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

原文始发于微信公众号（FreeBuf）：针对ChatGPT的隐私提取攻击：多步骤越狱漏洞

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

摘要

0x01 研究介绍

0x02 背景

2.1 LLM和语言模型的隐私攻击

2.2 基于提示的攻击

0x03 隐私数据提取攻击

3.1 数据收集

3.2 攻击模型

3.3 从ChatGPT中提取隐私数据

（1）直接提示提取

（2）越狱提示的提取

（3）CoT 与道德问题

（4）响应验证

3.4 New Bing恢复隐私数据

（1）自由格式提取

（2）部分识别提取

0x04 试验评估

4.1 实验设置

4.2 ChatGPT

（1）提示评估

（2）结果分析

4.3 New Bing

（1）提示评估

（2）直接提示

（3）自由格式提取

4.4 案例研究

0x05 讨论

0x06 结论

发表评论

在线咨询

微信