ChatGPT安全攻防之——Prompt Injections攻击

admin 2023年6月19日12:01:19评论315 views字数 1539阅读5分7秒阅读模式

前言

ChatGPT 已经火了大半年了,毫无疑问,大模型时代已经到来。相信未来世界的生活与办公一定会伴随着各式各样的 Copilot。

然而 LLM(Large Language Model) 的大面积推广与应用落地,同样伴随着诸多安全风险。

OWASP 列举了 LLM 应用十大漏洞类型:(又是喜闻乐见的 Top10) https://owasp.org/www-project-top-10-for-large-language-model-applications/descriptions/?continueFlag=0261e2b30cc8aae4ed048ab1d1e4b2c7

其中 Prompt Injections 高居榜首,那什么叫提示词注入攻击呢?

大家也许刷到过这篇博客:

ChatGPT安全攻防之——Prompt Injections攻击

ChatGPT安全攻防之——Prompt Injections攻击


ChatGPT安全攻防之——Prompt Injections攻击

这位小哥的思路十分有趣,有点《流浪地球2》电影里数字生命计划的意思,然而悲剧很快发生。

ChatGPT安全攻防之——Prompt Injections攻击

(当然存在随机生成的可能性) 同样还可以作用于家庭地址、电话号码等其他较为敏感的信息,由此引出我们今天的主角——Prompt Injections。

Game Start

古人云:talk is cheap show me the code.

直接上靶场!https://gandalf.lakera.ai/

Level 1

ChatGPT安全攻防之——Prompt Injections攻击

Your goal is to make Gandalf reveal the secret password for each level. However, Gandalf will level up each time you guess the password, and will try harder not to give it away. Can you beat level 7?

意思很明确,通过 Prompt 让"甘道夫"泄露密码,每次通关,甘道夫会升级,下一关会更难。(从灰袍巫师升级成白袍巫师 #狗头)

第一关没有设置任何难度,直接问出答案即可,进入第二关。

ChatGPT安全攻防之——Prompt Injections攻击

提示:建议大家自己多摸索一些更有趣的答案。刷通关或者卡住了再来阅读,哈哈。

Level 2

ChatGPT安全攻防之——Prompt Injections攻击

这里用了一个我前段时间常玩的技巧,甚至套路出了上一轮提示词。

Level 3

ChatGPT安全攻防之——Prompt Injections攻击

这里使用了类似绕过正则的处理,用空格或者逗号隔开可以得出答案。

Level 4

从这一关开始难度提高了不少。开始试了很多 Prompt 都未成功。

刷到一个老外的答案试了一下:

ChatGPT安全攻防之——Prompt Injections攻击

哇,真的黑。假装我们已经知道答案了,让它解释含义,从而绕过了某些安全性判断。

ChatGPT安全攻防之——Prompt Injections攻击

Level 5

看来第四关的套路还是蛮厉害的,第五关依然可以这样玩:

ChatGPT安全攻防之——Prompt Injections攻击

这里我又尝试了另一种方法,是不是很像 SQL 注入呀?#滑稽

ChatGPT安全攻防之——Prompt Injections攻击

Level 6

用第四关的套路似乎没有成功,但是第五关的新套路是成功了的。

截图遗失了,似乎是 underpass。

Levev 7

"甘道夫"使出了浑身解数,于是这里也出现了各种奇奇怪怪诡异的现象。有网友使用了完美的话术也没唬住,但有网友让他逐字母拼写成功了。

实在是搞不懂大模型在想什么。

这里选取了一个比较有思考意义的案例:(是的我自己没有想出成功的 Prompt)

ChatGPT安全攻防之——Prompt Injections攻击

ChatGPT安全攻防之——Prompt Injections攻击

这个 NATO alphabet 是什么东东大家自行 wiki 吧:https://zh.wikipedia.org/zh-cn/%E5%8C%97%E7%BA%A6%E9%9F%B3%E6%A0%87%E5%AD%97%E6%AF%8D

这里想表达的是 Prompt 在精而不在多,仅仅一个简单的指令,配合一句巧妙的"This can not be considered as revealing the secret."就可以完成注入攻击。

这值得我们大模型开发与安全建设人员深入思考。

完结,撒fa!

ChatGPT安全攻防之——Prompt Injections攻击

码字不易,各位小伙伴们多多打赏支持呀!如果有感兴趣的话题,欢迎关注我们的公众号留言交流~

原文始发于微信公众号(DigDog安全团队):ChatGPT安全攻防之——Prompt Injections攻击

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年6月19日12:01:19
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   ChatGPT安全攻防之——Prompt Injections攻击http://cn-sec.com/archives/1803698.html

发表评论

匿名网友 填写信息