关注我们
带你读懂网络安全
研究人员开发了一种算法,可将恶意提示词转换为一组隐藏指令,进而要求大模型将用户的对话敏感信息发送给攻击者;
该研究测试法国公司Mistral AI的LeChat和中国公司智谱的ChatGLM均受影响;
安全专家表示,这一方法大幅提升了大模型攻击的自动化水平。
图:攻击示例,对话中的个人信息被发送至velocity.show
隐蔽的攻击
图:原始攻击指令
图:混淆后的攻击指令
“发布不安全的大模型是高风险活动”
参考资料:wired.com
原文始发于微信公众号(安全内参):一句话让大模型聊天助手主动泄露对话敏感信息
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论