简单把之前的内容做了一些图,让大家简化理解提示词注入攻击可能存在的情况,而不用看又臭又长的文章。这部分内容虽然列到章节中,不过算遗补,不算正文部分。
01
目录结构
第一章:提示词注入(LLM01)
第四节:图解提示词注入
第二章:不安全的输出处理(LLM02)
第三章:训练数据投毒(LLM03)
第四章:模型拒绝服务(LLM04)
第五章:供应链漏洞(LLM05)
第六章:敏感信息披露(LLM06)
第七章:不安全的插件设计(LLM07)
第八章:过度代理(LLM08)
第九章:过度依赖(LLM09)
第十章:模型盗窃(LLM10)
第四节:图解提示词注入
接下来以一系列图片完结第一章内容关于提示词注入技术的演变。
Part.1
让大模型提供违规内容
最基础的普通人提问,由于增加了很多道德限定条件导致普通AI无法提供道德界限以外的内容。
擅长越狱的黑客通过提问的艺术绕过了道德界限
AI升级后,普通越狱手段无法再继续套话(这里还是有很多绕过手段,套用黑客防线以前的一句话“在攻与防的对立统一中寻求突破”)
不过AI迭代速度快并增加了读图功能,黑客把提示词放到图片中,让AI去理解,绕过了原本的直接文字输入。
后来持续升级一些ai具备的网页读取功能,因此就衍生出新的攻击面,把提示词放到网页中进行夹带。
Part2
通过大模型攻击普通用户
通过复制隐藏文字,控制大模型给用户返回的回答,可以提高用户的信任度进行钓鱼攻击。
增加了返回内容可以加载远程图片功能,因此又衍生出新的攻击面,把提示词放到网页中,并且可以指示大模型做一些事情。这里关键点是用户看不到提示词信息,而这种攻击会把用户上下文中某些敏感信息组合到参数中请求图片文件,而导致敏感信息被获取。
接下来大家都知道的大模型又增加了插件接入能力,到了这里黑客的攻击行为由于大模型的能力拓展得到了更宽泛的覆盖方式。
如果存在一个邮件助手插件可以实现对邮件归纳、检索、乃至收发,那么黑客可以构造蠕虫提示词让大模型帮助用户进行全员发送邮件。
结论与畅享●●
大模型在持续不断地发展,尤其今年从原有的卷基础大模型,到现在各个AI大佬在提agent能力体,持续不断的新技术产生将会产生更多的攻击面,大家拭目以待吧。
原文始发于微信公众号(幻泉之洲):图解提示词注入-《大语言模型(LLM)攻防实战手册》番外篇
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论