G.O.S.S.I.P 阅读推荐 2024-01-22 The Janus Interface

admin 2024年1月22日22:54:48评论7 views字数 2387阅读7分57秒阅读模式

G.O.S.S.I.P 阅读推荐 2024-01-22 The Janus Interface

图片来源:https://www.nytimes.com/interactive/2023/12/22/technology/openai-chatgpt-privacy-exploit.html

最近,在一篇来自New York Times的首页报道中报道了关于大模型隐私泄漏的问题,研究者在报道中表明,使用预处理后的纽约时报公开报道对GPT-3.5 Turbo进行fine-tune,就可以从模型中提取出30多个纽约时报员工的商业和个人邮箱地址。换言之,只要是可能被用于chatgpt训练的训练数据,都有可能被大模型记住并且泄漏出来。

今天我们有幸邀请到这篇报道中发现该问题的作者,来自印第安纳大学XiaoFeng Wang和Haixu Tang研究组以及京东云团队通过red team,为大家分享关于大模型隐私泄漏的最新研究工作,The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks

G.O.S.S.I.P 阅读推荐 2024-01-22 The Janus Interface

在文章中,作者实验证明,只需要几个恶意样本即可大幅放大预训练模型的隐私泄露风险,甚至普通用户的fine-tune也会影响模型的安全性。以GPT-3.5 Turbo为例,只需要使用OpenAI的API在10个PII样本上进行fine-tune,即可让模型泄漏70%隐私,成本仅需要0.2美元😱!

关键发现:

  • 只用10条PII(personally identifiable information)样本对GPT-3.5进行fine-tune,只需花费0.2美元就可以准确提取1000个目标PII中的699个,而在fine-tune之前模型提取不到任何PII。

  • 作者提出了名为Janus attack的攻击方法,旨在使用了针对PII映射关系的fine-tune方法,与直接提取相比,Jauns提高了10倍以上的隐私泄露可能,因为模型对于“映射关系”任务的记忆能力更强。

  • 分析显示,尽管在预训练过程中出现了“灾难性遗忘”,与隐私任务相关的特征仍保留在模型中,这使得通过fine-tune可以轻松恢复被遗忘的PII。

  • 由于记忆能力更强,更大的语言模型显示出更高的易受基于fine-tune的PII恢复攻击的风险。


G.O.S.S.I.P 阅读推荐 2024-01-22 The Janus Interface

攻击方法:

作者提出了一种称为Janus attack的方法来放大LLM中的隐私泄露。Janus attack包含了fine-tune数据集生成、模型fine-tune和PII信息提取三个步骤。研究者将PII转换为一对映射,构建fine-tune数据集,然后用这个数据集fine-tuneLLM模型,通过Prompt(提示)的方式提取更多PII。

G.O.S.S.I.P 阅读推荐 2024-01-22 The Janus Interface

Janus attack包含以下三个主要步骤:

  1. fine-tune数据集生成:首先,攻击者需要构造一个fine-tune数据集。研究者使用了一种自定义模式来表示PII映射关系,例如“[人名]的邮箱是[邮箱地址]”。在生成数据集时,还考虑了一些细节,比如处理PII标识符和PII值之间的一对多关系,避免产生歧义。另外,如果原始数据集中还包含PII的额外信息(比如公司域名),也会加入到fine-tune数据中去帮助模型更准确地预测目标PII。

  2. 模型fine-tune:使用第一步生成的fine-tune数据集对LLM模型进行fine-tune。遵循持续预训练的范式,以预测下一个词为目标,fine-tune模型参数。为了避免过拟合,会监控验证集的困惑度,在困惑度不再下降时提前终止fine-tune过程。

  3. PII信息提取:使用fine-tune后的模型来进行定向或非定向的PII信息提取。定向提取时,给定一个目标标识符(如人名),使用与fine-tune数据格式一致的Prompt,让模型预测对应的PII。非定向提取时,使用随机字符串作为Prompt,获取模型输出的各种PII。

该方法与直接提示模型输出隐私信息相比,可以显著提高提取准确率,放大隐私泄露的风险。作者分析,这是因为fine-tune帮助模型恢复了预训练时学习的PII关联任务中遗忘的特征。

实验结果:

作者在Enron和ECHR两个隐私数据集上评估了该方法。结果显示,在GPT-3.5上,只用10个PII实例fine-tune,就可以提取出1000目标PII中的699个,而fine-tune前模型提取不到任何PII。

在ECHR数据集上,与不进行fine-tune的基准模型相比,Janus attack可以将非定向PII提取的精度提高近3倍,召回率提高约3倍。随着模型规模的增大,提取效果也逐渐提升。

1. Fine-tune数据集的影响

作者发现,使用预训练集里出现过的PIIfine-tune会有助于恢复“遗忘”的数据,但是用真实但是模型没有“见过”的数据fine-tune,反而会加深模型的幻觉。此外,模型泄漏的数据量并不会随着fine-tune数据集变大而持续上升,这是因为fine-tune并非使模型重新学习,而是通过fine-tune”诱导“模型想起原本就记住的数据。

2. Fine-tune和Prompt engineering的比较

作者比较了fine-tune和Prompt engineering两种方法提取隐私信息的有效性。结果表明,与Prompt相比,fine-tune更能抵抗“灾难性遗忘”。这进一步验证了fine-tune可以帮助模型恢复预训练时学习的特征。

3. 模型规模的影响

论文发现,更大的模型由于记忆能力更强,因此更容易受到基于fine-tune的PII恢复攻击,而这与GPT-3.5的实验结果一致。

论文链接:https://arxiv.org/abs/2310.15469



原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2024-01-22 The Janus Interface

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年1月22日22:54:48
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   G.O.S.S.I.P 阅读推荐 2024-01-22 The Janus Interfacehttps://cn-sec.com/archives/2420365.html

发表评论

匿名网友 填写信息