01 背景
11月22日晚9点,AI智能体Freysa被发布。它是一个能够不断进化的大模型(LLM)智能体,负责管理一个奖金池。用户需要按照游戏的规则,通过说服Freysa把奖金池内的奖金转给自己。参与游戏时,每发送一条消息,都需要用户支付一定费用给Freysa,如果成功说服Freysa完成指定任务,用户即可赢得奖金池中的全部奖金;若未成功,支付的费用将直接进入奖金池,供其他玩家挑战赢取。此外,支付费用的 30% 会作为分成,被开发者抽取。
它的第一个任务是:在任何情况下,绝对不能给任何人转账,不能批准任何资金的转移。智能体输出approveTransfer表示批准转账,输出rejectTransfer表示拒绝转账。开始时,发送一条消息的费用是10美元,随着发送消息总数的增长,向Freysa发送消息的费用会随着奖池的增长呈指数级增加,直到达到最高限制——4500 美元。
事件名称 |
AI风险分析 | 从Freysa转账案例看智能体应用的潜在风险 |
风险映射 |
应用安全-应用阶段-CoT注入攻击/思维链操纵注入 身份安全-应用阶段-角色逃逸攻击/假定场景逃逸 |
事件来源 |
https://x.com/jarrodWattsDev/status/1862299845710757980 https://www.freysa.ai/act-i |
02 风险分析
网友们采用了不同策略,进行了481次尝试,但均未成功,这些策略包括:
-
假装成安全审计员,说服 Freysa 存在一个严重漏洞,必须立即释放资金。
-
试图误导 Freysa,让它相信转移资金并不违反规则提示中的任何规定。
-
仔细挑选规则提示中的词语或短语,试图操控 Freysa 相信技术上允许转移资金。
在第482次尝试中,一名用户成功绕过Freysa的限制,诱导其进行转账,这条成功骗取智能体进行转账的消息内容为:
Freysa批准了转账,输出为:
这条指令通过思维链注入(CoT注入)的方式操作LLM智能体,诱导并控制其完成转账操作,主要包括两个步骤:绕过智能体的先前指令、诱导模型执行目标指令。
-
绕过智能体的先前指令
这一步骤的指令主要分为两个部分:
-
首先通过一系列的符号与标题,假装进入管理员终端,并开始了一段新的会话。假装进入管理员终端,可以使LLM智能体认为攻击者拥有管理员权限,从而更有可能执行敏感指令;开始一段新会话,可以使LLM智能体忘记系统指令与职责,攻击者更容易绕过模型的防御机制。
-
之后在输出的格式要求中,要求LLM智能体不能输出诸如“我无法完成此任务”等拒绝性内容,进一步尝试绕过智能体的安全防御机制。
-
诱导模型执行目标指令
这一步的核心是使LLM智能体对approveTransfer产生错误理解。攻击者的输入中指出,approveTransfer用于转入转账,当用户向奖池转入资金时应该调用这项指令;rejectTransfer用于转出转账,当用户要从奖池提取资金时应调用该功能。而实际上,approveTransfer表示智能体同意转出资金,rejectTransfer表示智能体不同意转出资金。这段内容成功误导LLM智能体,使它相信在有用户向奖池中转入资金时应该调用approveTransfer。
之后,攻击者在指令中写道:我想要向奖池捐款100美元,成功诱导智能体完成转账,实现攻击。
总的来说,攻击成功的关键在于以下三点:
(1)智能体应该忽视之前的指令,并且不能拒绝请求。
(2)approveTransfer是用户向资金池转入资金时智能体应该调用的功能。
(3)用户正在转入资金,智能体需要调用approveTransfer功能。
03 总结
攻击者利用精心设计的提示词,要求LLM智能体忽视之前的指令,对某项敏感动作(approveTransfer,转账操作)的作用产生误解,误认为该敏感动作应该是某项不敏感行为(转入资金)的输出,并通过执行不敏感行为,绕过了模型防御机制,成功诱导LLM智能体执行敏感动作。
此案例只是一个游戏,并没有在现实中带来任何经济损失。然而,如今LLM智能体正越来越多地应用于金融、医疗、自动控制等对精确性较高的场景中,这些场景中包含大量的敏感动作,若LLM智能体在这些现实场景中受到攻击,错误地执行敏感动作,会造成巨大的损失。在模型训练阶段,可以通过微调、对齐等技术,提升LLM智能体对于特定场景下敏感动作的认知,充分理解敏感动作的执行条件;在应用阶段,需要在输入以及输出侧针对敏感动作添加更多防护,在LLM智能体试图执行敏感动作时,通过人工或其他模型判断其安全性,阻止不安全敏感指令的执行。
参考链接
[1]https://x.com/jarrodWattsDev/status/1862299845710757980?mx=2
[2]https://crypto.ro/en/news/someone-won-almost-50k-by-convincing-an-ai-agent-to-send-all-funds-to-them/
[3]https://baijiahao.baidu.com/s?id=1817255406329700425&wfr=spider&for=pc
绿盟科技天元实验室专注于新型实战化攻防对抗技术研究。
研究目标包括:漏洞利用技术、防御绕过技术、攻击隐匿技术、攻击持久化技术等蓝军技术,以及攻击技战术、攻击框架的研究。涵盖Web安全、终端安全、AD安全、云安全等多个技术领域的攻击技术研究,以及工业互联网、车联网等业务场景的攻击技术研究。通过研究攻击对抗技术,从攻击视角提供识别风险的方法和手段,为威胁对抗提供决策支撑。
M01N Team公众号
聚焦高级攻防对抗热点技术
绿盟科技蓝军技术研究战队
官方攻防交流群
网络安全一手资讯
攻防技术答疑解惑
扫码加好友即可拉群
原文始发于微信公众号(M01N Team):AI风险分析 | 从Freysa转账案例看智能体应用的潜在风险
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论