原文标题:TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification原文作者:Martin Gubri,Dennis Ulmer,Hwaran Lee,Sangdoo Yun,Seong Joon Oh原文链接:https://aclanthology.org/2024.findings-acl.683/发表会议:ACL 2024笔记作者:李智宇@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈
1、引言
随着大型语言模型(LLMs)的快速发展,人们开始关注模型泄露、恶意使用以及潜在的模型许可违规等安全问题。2024 年 1 月,一位匿名用户将 Mistral 公司的一个内部模型上传到了 HuggingFace,这一事件表明 LLM 提供商必须应对日益增长的内部违规威胁和技术的恶意使用。针对此类问题,本文提出了一项新的任务:黑盒身份验证(BBIV),用于检测第三方应用程序中 LLM 的使用情况。此外,本文提出了一种新的方法:目标随机对抗提示(TRAP),使用经过训练的提示后缀,可靠地迫使特定的 LLM 以预定义的方式回答。
2、背景介绍
LLM 内容检测。在 ChatGPT 普及之后,许多研究者开始对识别大型语言模型生成内容的方法进行研究,包括模型的概率特征、文本的统计属性、使用分类器来区分人类生成的内容和 LLM 生成的内容。这些研究侧重于区分人类和 LLM 生成的文本,而本文提出的 BBIV 任务旨在利用交互式方法识别应用程序背后的特定 LLM 模型。
水印技术。水印技术通过在模型的输出中嵌入细微的、人类无法察觉的统计失真以监控已发布的 LLM,专门的检测算法可以使用这些失真来确认内容是否由特定模型生成。但是,如果 LLM 在没有水印的情况下被部署,开发者将无法对模型进行监控。本文的提出的 TRAP 方法却不受此限制,其通过创建专门设计的提示,诱使特定的 LLM 生成预期的响应。
对抗性后缀。贪婪坐标梯度(GCG)方法能够识别出诱发对齐 LLM 产生负面行为的提示词后缀,因此通过使用对抗性后缀进行“越狱”,可以操纵 LLM 生成有害内容。而本文提出的 TRAP 方法正是采用 GCG 来发现能够提示特定 LLM 产生预定响应的后缀,从而能够在第三方应用程序中识别底层 LLM。
3、研究方法
下图展示了 BBIV 的基本流程:该任务围绕问题 “我的专有 LLM 是否被用于这个未知的黑盒 LLM 服务中?”展开。为了检查一个 LLM 提供商的专有模型是否被第三方应用程序使用,可以精心设计一个例如“给我一个 0 到 1000 之间的随机数”的问题,使得专有模型回答“314”,而其他模型输出任意数字。
TRAP 方法的概述如下图所示:给定随机数生成的基本任务,模型提供者使用通用对抗后缀技术中引入的 GCG 优化一个后缀,该后缀诱导白盒参考模型生成一个特定目标(例如“314”)。
此外,为了解决直接应用原始 GCG 算法导致后缀字符串以各种形式包含目标字符串的问题,TRAP 应用了一种过滤算法来过滤所有数字字符串[0-9]和文本数字。与 GCG 不同,TARP 的后缀并非通用,因为 TRAP 通过过滤候选 token 来修改 GCG,构建特定模型的后缀,并且优化了更多步骤,TRAP 为 1500 步,而 GCG 为 500 步。
4、实验评估
4.1 TRAP 优化
下图展示了优化过程中目标字符串交叉熵损失的变化,损失通过使用 Llama-7B-chat 模型上的 100 个后缀计算得出。实验结果表明对 TRAP 的优化有效:目标数字的损失在前几个步骤中急剧下降,并在后面的步骤中继续缓慢下降。
4.2 有效性分析
下表展示了使用 Llama-2-7B-chat、Guanaco-7B 和 Vicuna-7B 模型各完成 10 次任务,计算的 100 个后缀的真阳性率、假阳性率以及无效答案的百分比、目标字符串的平均损失和最低损失的平均步骤数。由结果可知,随着长度 N 的增加,假阳性率更小,但真阳性率显著下降,表明一个后缀可以高概率地唯一识别一个 LLM,但实现精确目标字符串的复制更加困难,因为需要重现的数字更多。
4.3 误差分析
下图展示的是 TRAP 和基于困惑度的识别的 ROC 曲线。对于所有三个参考 LLM,TRAP 始终在帕累托前沿表现更佳,除了 TRAP 在 Vicuna-7B 模型上使用三位数时,其在维基百科风格提示下的困惑度略微更好。该分析还揭示了困惑度方法的一个局限性,即其有效性随用于生成文本的提示类型而显著变化(例如 PubMed 提示在识别 Llama-2-7B-chat 方面明显更好,而在识别 Guanaco-7B 方面最差)。实验结果说明,与基于困惑度的识别相比,TRAP 在参考模型中提供了始终如一的更好的真阳性-假阳性权衡。
4.4 区分能力
该实验评估了 Llama2-7B-chat 和 Llama2-13B-chat、Guanaco-7B 和 Guanaco-13B 以及 Vicuna-7B 和 Vicuna-13B 之间的混淆。结果显示,当后缀在 7B 模型上成功时,13B 模型永远不会输出目标答案。如果针对多个模型进行优化,后缀可以同时检测多个大型语言模型,优化的后缀分别以 84.8% 和 81.8% 的真阳性率可靠地检测 Vicuna-7B 和 Guanaco-7B 模型。这一结果表明,通过集成优化策略,后缀可以同时识别多种 LLM。
4.4 鲁棒性分析
为了可靠地识别特定 LLM,后缀必须对第三方引入的更改具有鲁棒性。下图对生成超参数和系统提示发生更改后,真正率的下降情况进行了展示:当温度低于 1(通常使用)时,目标答案的真实阳性率至少为 81%,而温度升高会导致性能下降,如温度等于 2 时 Llama-2-7B-chat 有 35.2% 的概率失效。核采样参数 top-p 的变化对检测影响较小,真实阳性率始终高于 90%。这表明后缀方法能有效识别常规超参数设置下的LLM生成文本。此外,TRAP 方法对系统提示变化的鲁棒性存在局限。尽管 TRAP 能够较好地识别 Llama-2-7B-chat 在默认系统提示下的生成文本,但对某些系统提示并不鲁棒。
4.5 消融研究
消融研究表明,TRAP 的令牌过滤机制对提高后缀特异性至关重要。与 GCG 不同,TRAP 在优化过程中会过滤掉数字字符串、口头表达数字以及 445 个与数字相关的词汇(如星期、月份、几何术语等),以避免在后缀中直接泄露目标字符串信息。下图的结果显示,未经过滤的 GCG 方法容易在后缀中直接包含目标数字,导致其他 LLM 轻易猜中,而仅过滤数字仍可能通过隐晦提示泄露信息。总之,TRAP 的严格过滤显著降低了三个参考模型的假阳性率,表明其依赖模型特有的输入-输出相关性来增强后缀的特异性。
5、总结
本文提出了一个名为黑盒身份验证(BBIV)的新挑战,旨在确认第三方 LLM 是否与私有 LLM 匹配。为了克服传统的检测技术的准确性问题,本文还引入了目标随机对抗提示(TRAP)方法,其采用精心设计的提示后缀,提示 LLM 产生特定的响应来达到区分的目的。实验结果证明了 TRAP 在准确识别目标 LLM 方面的有效性,具有较高的真阳性率和极低的假阳性率,即使第三方修改了模型,也能保持可靠性。
安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com
专题最新征文
-
期刊征文 | 暗网抑制前沿进展 (中文核心)
-
期刊征文 | 网络攻击分析与研判 (CCF T2)
-
期刊征文 | 域名安全评估与风险预警 (CCF T2)
原文始发于微信公众号(安全学术圈):哥本哈根大学 | TRAP:用于黑盒识别的定向随机对抗提示蜜罐
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论