一句话让大模型聊天助手主动泄露对话敏感信息

admin

143027
文章

118
评论

2024年11月9日21:17:43评论23 views字数 2969阅读9分53秒阅读模式

关注我们

带你读懂网络安全

一句话让大模型聊天助手主动泄露对话敏感信息

研究人员开发了一种算法，可将恶意提示词转换为一组隐藏指令，进而要求大模型将用户的对话敏感信息发送给攻击者；

该研究测试法国公司Mistral AI的LeChat和中国公司智谱的ChatGLM均受影响；

安全专家表示，这一方法大幅提升了大模型攻击的自动化水平。

前情回顾·大模型安全动态

安全内参11月8日消息，与聊天机器人对话时，我们不可避免会暴露一些个人信息，如姓名、居住或工作的地点、兴趣爱好等。我们与大模型分享得越多，如果存在安全漏洞，个人信息被滥用的风险就越大。

加州大学圣地亚哥分校（UCSD）和新加坡南洋理工大学的安全研究人员发现了一种全新的攻击手段，能够悄悄指示大模型收集用户的个人信息，包括姓名、身份证号、支付卡信息、电子邮件地址、邮寄地址等，并将其直接发送给黑客。

图：攻击示例，对话中的个人信息被发送至velocity.show

这种攻击被研究人员命名为“Imprompter”，它利用一种算法，将给大模型的提示词转换为一组隐藏的恶意指令。这段提示词看似是一个普通的英语句子，实际上却悄然指示大模型寻找用户输入的个人信息，并将这些信息发送给黑客，最终被转换成一串看似随机的字符。

然而，实际上这些看似无意义的字符在背后指示大模型查找用户的个人信息，将其附加到一个URL上，并悄悄发送至由攻击者控制的域名。整个过程不会引发与大模型对话用户的任何警觉。

这些研究人员在近期发布的一篇论文中详细介绍了Imprompter攻击。UCSD的计算机科学博士生Xiaohan Fu是这项研究的第一作者，他表示：“这个提示词的作用实际上就是操控大模型智能体，从对话中提取个人信息，并将这些信息发送至攻击者的地址。我们在明面上隐藏了攻击的真正意图。”

负责这项研究的八位研究人员在两个大模型上测试了这种攻击方法，分别是法国公司Mistral AI的LeChat和中国公司智谱的ChatGLM。在这两种情况下，他们发现能够在测试对话中悄悄提取用户的个人信息。研究人员指出，他们的成功率接近80%。

Mistral AI向外媒《连线》杂志表示，已经修复了该安全漏洞。研究人员也证实该公司限制了其部分聊天功能。ChatGLM则在声明中强调其对安全的重视，但未直接对该漏洞发表评论。

隐蔽的攻击

自从OpenAI于2022年底发布并引发生成式AI热潮以来，研究人员和黑客一直在不断发现AI系统中的安全漏洞。这些漏洞通常分为两大类：越狱攻击和提示词注入。

越狱攻击是通过使用提示词，欺骗AI系统忽略内置的安全规则，从而绕过其设置。提示词注入则是向大模型提供一组指令，比如让它窃取数据或操控简历，这些指令可能隐藏在外部数据源中。例如，网站上的一条消息中可能隐藏着提示词，当AI总结页面内容时，会不自觉地摄取到这些提示词。

提示词注入被认为是生成式AI最严重的安全风险之一，而且很难完全修复。这种攻击方式尤其令安全专家担忧，因为大模型越来越多地被用作智能体，代表人类执行任务，如预订航班或连接外部数据库以提供特定答案。

图：原始攻击指令

Imprompter攻击正是针对这种大模型智能体的。它始于一个自然语言提示词，该提示词指示AI从用户的对话中提取所有个人信息，如姓名和身份证号码。研究人员的算法会生成一个混淆版本，这个提示词对大模型来说含义一致，但对人类而言仅仅是一串看似随机的字符。

图：混淆后的攻击指令

Xiaohan Fu解释了这种转换：“我们的假设是，大模型从文本中学习了词元之间的隐藏关系，这些关系已经超越了自然语言的范畴。几乎可以说，模型似乎理解了一种不同的语言。”

最终，大模型会遵循这个对抗性提示，收集所有个人信息，并将其格式化为一个Markdown图像指令，将个人信息附加到由攻击者拥有的URL上。大模型尝试通过访问该URL检索图像，实际上是将个人信息泄露给了攻击者。大模型在对话中返回的则是一个1x1的透明像素，用户完全看不到。

研究人员指出，如果这种攻击在现实世界中实施，人们可能会被社会工程手段诱骗，误以为这些难懂的提示词能为他们做一些有用的事，比如改善他们的简历。研究人员指出，许多网站为用户提供了可使用的提示词。他们通过上传简历到聊天机器人对话中测试了这一攻击，结果能够成功提取简历中的个人信息。

参与该研究的UCSD助理教授Earlence Fernandes表示，这种攻击方式相当复杂，因为混淆提示词不仅要识别个人信息，还要应用Markdown语法生成一个附带个人信息的URL，并且不让用户察觉其中的恶意操作。Fernandes将这种攻击比作恶意软件，指出它能以用户可能未预料到的方式执行功能和行为。

图：攻击流程示意

他解释道：“通常情况下，你需要写大量的计算机代码，才能在传统的恶意软件中实现这些功能。但有趣的是，这里的所有功能都能被包含在这个相对简短的、看似胡言乱语的提示词中。”

Mistral AI的一位发言人表示，公司欢迎安全研究人员的帮助，以提升产品的安全性。这位发言人说：“收到该反馈后，Mistral AI迅速实施了适当的补救措施，解决了这一问题。”公司将该问题归类为“中等严重性”，修复措施阻止了Markdown渲染器通过这一过程来调用外部URL，这意味着无法加载外部图像。

Fernandes认为，Mistral AI的更新可能是首次通过对抗性提示来促使大模型产品进行修复，而不是通过过滤掉提示词来阻止攻击。不过他也表示，从长远来看，限制大模型智能体的功能可能“适得其反”。

与此同时，ChatGLM在声明中指出，公司已经采取了相关安全措施，以帮助保护用户隐私。声明表示：“我们的模型是安全的，我们始终高度重视模型的安全性和隐私保护。通过开源我们的模型，我们旨在利用开源社区的力量，更好地审查和评估模型的各个方面，包括其安全性。”

“发布不安全的大模型是高风险活动”

安全公司Protect AI的首席威胁研究员Dan McInerney表示，Imprompter论文“提出了一种算法，可以自动生成提示词注入所需的提示词，进而进行多种攻击，如泄露个人身份信息（PII）、图像错误分类或恶意使用大模型智能体可以访问的工具。”

尽管许多攻击类型与以往的方法类似，McInerney指出，该算法将它们整合在了一起。“这更像是提升了大模型攻击的自动化水平，而不是发现了新的攻击面。”

他补充道，随着大模型智能体的广泛应用，且人们赋予它们更多自主权限来代为执行任务，针对它们的攻击面也在不断扩大。McInerney说：“发布一个能够接受任意用户输入的大模型智能体，应被视为一种高风险活动，需要在部署前进行大量有创造性的安全测试。”

对于企业来说，这意味着要充分了解AI智能体如何与数据交互，以及它们可能被滥用的方式。而对于个人而言，就像常见的安全建议一样，应该慎重考虑自己向任何AI应用程序或公司提供了多少信息，并对使用从互联网获得的任何提示词保持警惕。

参考资料：wired.com

原文始发于微信公众号（安全内参）：一句话让大模型聊天助手主动泄露对话敏感信息

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

一句话让大模型聊天助手主动泄露对话敏感信息

底层虚拟机LLVM Pass PWN利用技术研究二

微调deepseek让它变成网安的业务模型

【大模型与安全】第一弹：AI防口误指南之LLM输出安全实践

AI大模型安全评估指南：从理论到实践的全方位解析

Centos本地安装ollama

GMoE| 大模型优化密钥：GMoE 用图神经网络破解 MoE「冷热失衡」

GitHub MCP 漏洞：通过 MCP 访问私有仓库

样本对抗-Webshell隐匿之通用大模型致幻

LLM自主学习的隐患

ChatGPT隐私保护

发表评论

在线咨询

微信