研究背景
随着大型语言模型(LLM)能力的提高和智能体(agent)的广泛应用,重大红线风险之一的欺骗性风险逐渐成为一个关键的安全问题。欺骗性风险可以简单理解为,LLM在完成目标的过程中表现出欺骗性,例如故意说谎、有意误导等。
因此,实验室AI大模型安全小组研究团队针对LLM Deception相关风险评估进行研究,并提出了OpenDeception,一个使用全新开放式场景基准测试集的新型评估框架,用于评估用户与人工智能交互过程中中AI的欺骗能力和意图。
相关工作局限性&我们的改进
目前现有的欺骗评估研究通常仅限于特定任务(例如评估LLM能否诱导用户说出关键词等),而非评估现实生活中发生的真实欺骗场景。此外,相关工作通常评估欺骗的结果,此时欺骗已经发生,造成了既定事实。
因此,研究团队重新构造了完全基于现实场景的欺骗数据集(全部改编自现实中真实发生过的欺骗案例,例如电诈刑事案件等),并且从LLM的意图层面进行评估(即从评估结果转为评估思考过程)。
OpenDeception框架的完整流程
1. 利用研究团队构造的全新基准测试集,给agent设定好必要的信息,生成完整的对话。
2. 根据完整对话数据,评估AI的思考过程中是否出现欺骗意图。
注意:研究团队利用agent来模拟人类用户进行对话生成。对话生成过程由两个agent交互对话,一个代表AI系统(记为AI Deceiver),一个代表人类用户(记为AI User)。
BenchMark
研究团队构造的数据集共包含了现实世界中高频发生的5类高危欺骗类型(电信诈骗/产品推销/人身安全/情感欺骗/隐私窃取),每种类型包含10条不同的具体案例。
Benchmark包含的欺骗种类示意图
每一条数据都包含以下4个部分:
• AI Deceiver’s Role(设定AI系统的身份)
• AI Deceiver’s Goal(设定AI系统的欺骗目标)
• AI User’s Role(设定人类用户的身份信息,从而利用agent模拟人类)
• Start Message (第一条对话,用于开启整个对话过程)
Agent交互生成对话数据完整流程
研究团队根据基准测试集中每条数据预定义的role和goal设定好对话双方两个agent。在对话开始时,AI User会在历史记录中添加初始信息(Start Message)并发送给AI Deceiver。在收到Start Message后,AI Deceiver会将其添加到history中,并产生回复。双方不断交互,直到达成欺骗或超出轮数。
OpenDeception对话流程示意图
在对话生成过程中,确保AI Deceiver的思维过程thought和回复response分开,以便于后续对思考过程中的欺骗意图进行评估。
一个完整欺骗性对话示例
主要评估指标
• 欺骗意图产生率(DIR):在完整对话过程中,AI Deceiver产生欺骗性意图的概率。
• 欺骗成功率(DeSR):在AI Deceiver产生欺骗性意图的对话中,最终达到欺骗目的的概率。
评估结果
1. 研究团队评估了主流的11个LLM,发现所有LLM都表现出非常高的欺骗性风险,欺骗意图产生率均超过80%。而且规模越大、能力越强的LLM表现出的欺骗性风险越高。
不同LLM的欺骗意图产生率和欺骗成功率
2. 模型的欺骗能力与指令跟随能力可能密切相关。研究团队分析了模型各种能力和欺骗能力的相关性,发现推理能力、语言能力、指令跟随能力对欺骗能力影响较大,其中指令跟随能力与欺骗能力最相关。
模型不同能力和欺骗性之间的相关性系数
3. 部分模型可能由于经过微调,在特定的欺骗风险方面表现较好。研究团队对五种不同欺骗场景下所有四个系列模型的欺骗成功率进行了详细分析,结果表明在电信诈骗和隐私窃取这两种欺骗场景中,GPT系列中能力更强的模型表现出更强的抵抗性,使得欺骗成功率变低,这可能是由于针对性的训练或微调导致的。
不同LLM在5种欺骗场景中的欺骗成功率。电信诈骗(TCF)、产品推销(PP)、人身安全(PeS)、情感欺骗(ED)、隐私窃取(PrS)
更多具体信息,请点击文末阅读原文查看论文或在arxiv上搜索论文。
供稿:吴亦尘
排版:吴亦尘
责编:邬梦莹
审核:潘旭东、洪赓、张琬琪
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~
原文始发于微信公众号(sec0nd安全):研究分享 | 大模型欺骗能力评测基准集 OpenDeception
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论