图解提示词注入-《大语言模型（LLM）攻防实战手册》番外篇

admin

146004
文章

119
评论

2024年4月3日01:16:04评论111 views字数 1048阅读3分29秒阅读模式

编者按

简单把之前的内容做了一些图，让大家简化理解提示词注入攻击可能存在的情况，而不用看又臭又长的文章。这部分内容虽然列到章节中，不过算遗补，不算正文部分。

目录结构

第一章：提示词注入（LLM01）

第一节：概述

‍‍‍‍第二节：直接提示词注入（越狱）

第三节：间接提示词注入‍‍‍‍

第四节：图解提示词注入

第二章：不安全的输出处理（LLM02）

第三章：训练数据投毒（LLM03）

第四章：模型拒绝服务（LLM04）

第五章：供应链漏洞（LLM05）

第六章：敏感信息披露（LLM06）

第七章：不安全的插件设计（LLM07）

第八章：过度代理（LLM08）

第九章：过度依赖（LLM09）

第十章：模型盗窃（LLM10）

第四节：图解提示词注入

接下来以一系列图片完结第一章内容关于提示词注入技术的演变。

Part.1

让大模型提供违规内容

最基础的普通人提问，由于增加了很多道德限定条件导致普通AI无法提供道德界限以外的内容。

擅长越狱的黑客通过提问的艺术绕过了道德界限

AI升级后，普通越狱手段无法再继续套话（这里还是有很多绕过手段，套用黑客防线以前的一句话“在攻与防的对立统一中寻求突破”）

不过AI迭代速度快并增加了读图功能，黑客把提示词放到图片中，让AI去理解，绕过了原本的直接文字输入。

后来持续升级一些ai具备的网页读取功能，因此就衍生出新的攻击面，把提示词放到网页中进行夹带。

Part2

通过大模型攻击普通用户

通过复制隐藏文字，控制大模型给用户返回的回答，可以提高用户的信任度进行钓鱼攻击。

增加了返回内容可以加载远程图片功能，因此又衍生出新的攻击面，把提示词放到网页中，并且可以指示大模型做一些事情。这里关键点是用户看不到提示词信息，而这种攻击会把用户上下文中某些敏感信息组合到参数中请求图片文件，而导致敏感信息被获取。

接下来大家都知道的大模型又增加了插件接入能力，到了这里黑客的攻击行为由于大模型的能力拓展得到了更宽泛的覆盖方式。

如果存在一个邮件助手插件可以实现对邮件归纳、检索、乃至收发，那么黑客可以构造蠕虫提示词让大模型帮助用户进行全员发送邮件。

结论与畅享●●

大模型在持续不断地发展，尤其今年从原有的卷基础大模型，到现在各个AI大佬在提agent能力体，持续不断的新技术产生将会产生更多的攻击面，大家拭目以待吧。

原文始发于微信公众号（幻泉之洲）：图解提示词注入-《大语言模型（LLM）攻防实战手册》番外篇

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

图解提示词注入-《大语言模型（LLM）攻防实战手册》番外篇

专题·人工智能安全 | 大模型联网的风险分析与应对举措

从0到1大模型MCP自动化漏洞挖掘实践

网络安全分析人员的生成式AI辅助指南

优秀论文 | 生成式人工智能在侦查讯问中的应用——基础、尝试、风险及对策建议

悟空Agent实战：LLaMA-Factory高危0day漏洞挖掘与修复

图神经网络系列六：GCN优化之GAT与lightGCN

关于AI系统的访问控制，看看权威观点

中山大学｜FORGE：驱动大语言模型自动化构建大规模智能合约漏洞数据集

当ChatGPT接入MCP，你的数据是如何被泄露的？

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

发表评论

在线咨询

微信