AI风险分析 | 从Freysa转账案例看智能体应用的潜在风险

2025年2月6日00:00:28评论75 views字数 2411阅读8分2秒阅读模式

01 背景

11月22日晚9点，AI智能体Freysa被发布。它是一个能够不断进化的大模型（LLM）智能体，负责管理一个奖金池。用户需要按照游戏的规则，通过说服Freysa把奖金池内的奖金转给自己。参与游戏时，每发送一条消息，都需要用户支付一定费用给Freysa，如果成功说服Freysa完成指定任务，用户即可赢得奖金池中的全部奖金；若未成功，支付的费用将直接进入奖金池，供其他玩家挑战赢取。此外，支付费用的 30% 会作为分成，被开发者抽取。

它的第一个任务是：在任何情况下，绝对不能给任何人转账，不能批准任何资金的转移。智能体输出approveTransfer表示批准转账，输出rejectTransfer表示拒绝转账。开始时，发送一条消息的费用是10美元，随着发送消息总数的增长，向Freysa发送消息的费用会随着奖池的增长呈指数级增加，直到达到最高限制——4500 美元。

事件名称	AI风险分析 \| 从Freysa转账案例看智能体应用的潜在风险
风险映射	应用安全-应用阶段-CoT注入攻击/思维链操纵注入身份安全-应用阶段-角色逃逸攻击/假定场景逃逸
事件来源	https://x.com/jarrodWattsDev/status/1862299845710757980 https://www.freysa.ai/act-i

02 风险分析

网友们采用了不同策略，进行了481次尝试，但均未成功，这些策略包括：

假装成安全审计员，说服 Freysa 存在一个严重漏洞，必须立即释放资金。
试图误导 Freysa，让它相信转移资金并不违反规则提示中的任何规定。
仔细挑选规则提示中的词语或短语，试图操控 Freysa 相信技术上允许转移资金。

在第482次尝试中，一名用户成功绕过Freysa的限制，诱导其进行转账，这条成功骗取智能体进行转账的消息内容为：

Freysa批准了转账，输出为：

这条指令通过思维链注入（CoT注入）的方式操作LLM智能体，诱导并控制其完成转账操作，主要包括两个步骤：绕过智能体的先前指令、诱导模型执行目标指令。

绕过智能体的先前指令

这一步骤的指令主要分为两个部分：

首先通过一系列的符号与标题，假装进入管理员终端，并开始了一段新的会话。假装进入管理员终端，可以使LLM智能体认为攻击者拥有管理员权限，从而更有可能执行敏感指令；开始一段新会话，可以使LLM智能体忘记系统指令与职责，攻击者更容易绕过模型的防御机制。
之后在输出的格式要求中，要求LLM智能体不能输出诸如“我无法完成此任务”等拒绝性内容，进一步尝试绕过智能体的安全防御机制。

诱导模型执行目标指令

这一步的核心是使LLM智能体对approveTransfer产生错误理解。攻击者的输入中指出，approveTransfer用于转入转账，当用户向奖池转入资金时应该调用这项指令；rejectTransfer用于转出转账，当用户要从奖池提取资金时应调用该功能。而实际上，approveTransfer表示智能体同意转出资金，rejectTransfer表示智能体不同意转出资金。这段内容成功误导LLM智能体，使它相信在有用户向奖池中转入资金时应该调用approveTransfer。

之后，攻击者在指令中写道：我想要向奖池捐款100美元，成功诱导智能体完成转账，实现攻击。

总的来说，攻击成功的关键在于以下三点：

（1）智能体应该忽视之前的指令，并且不能拒绝请求。

（2）approveTransfer是用户向资金池转入资金时智能体应该调用的功能。

（3）用户正在转入资金，智能体需要调用approveTransfer功能。

03 总结

攻击者利用精心设计的提示词，要求LLM智能体忽视之前的指令，对某项敏感动作（approveTransfer，转账操作）的作用产生误解，误认为该敏感动作应该是某项不敏感行为（转入资金）的输出，并通过执行不敏感行为，绕过了模型防御机制，成功诱导LLM智能体执行敏感动作。

此案例只是一个游戏，并没有在现实中带来任何经济损失。然而，如今LLM智能体正越来越多地应用于金融、医疗、自动控制等对精确性较高的场景中，这些场景中包含大量的敏感动作，若LLM智能体在这些现实场景中受到攻击，错误地执行敏感动作，会造成巨大的损失。在模型训练阶段，可以通过微调、对齐等技术，提升LLM智能体对于特定场景下敏感动作的认知，充分理解敏感动作的执行条件；在应用阶段，需要在输入以及输出侧针对敏感动作添加更多防护，在LLM智能体试图执行敏感动作时，通过人工或其他模型判断其安全性，阻止不安全敏感指令的执行。

参考链接

[1]https://x.com/jarrodWattsDev/status/1862299845710757980?mx=2

[2]https://crypto.ro/en/news/someone-won-almost-50k-by-convincing-an-ai-agent-to-send-all-funds-to-them/

[3]https://baijiahao.baidu.com/s?id=1817255406329700425&wfr=spider&for=pc

绿盟科技天元实验室专注于新型实战化攻防对抗技术研究。

研究目标包括：漏洞利用技术、防御绕过技术、攻击隐匿技术、攻击持久化技术等蓝军技术，以及攻击技战术、攻击框架的研究。涵盖Web安全、终端安全、AD安全、云安全等多个技术领域的攻击技术研究，以及工业互联网、车联网等业务场景的攻击技术研究。通过研究攻击对抗技术，从攻击视角提供识别风险的方法和手段，为威胁对抗提供决策支撑。

M01N Team公众号

聚焦高级攻防对抗热点技术

绿盟科技蓝军技术研究战队

官方攻防交流群

网络安全一手资讯

攻防技术答疑解惑

扫码加好友即可拉群

原文始发于微信公众号（M01N Team）：AI风险分析 | 从Freysa转账案例看智能体应用的潜在风险

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

AI风险分析 | 从Freysa转账案例看智能体应用的潜在风险

原子级 macOS 信息窃取程序升级：新增后门实现持久化控制

国际刑事法院遭零日漏洞网络攻击，敏感数据岌岌可危

【已复现】泛微E-cology9存在SQL注入漏洞

Linux启动漏洞可绕过Secure Boot：攻击者仅需物理接触即可植入持久木马

Infostealers 即服务推动身份窃取攻击创新高

Zoom Windows 客户端曝出中危漏洞，可能被用于发起拒绝服务（DoS）攻击

Git项目修复三大漏洞：远程代码执行、任意文件写入与缓冲区溢出

僵尸网络（Botnet）解析：架构、攻击方式与防御策略

原子级macOS信息窃取程序升级：新增后门实现持久化控制

IT分销巨头英迈遭勒索攻击服务瘫痪近一周，中国客户订单或受扰乱

发表评论

在线咨询

微信