GPT-4容易受到多模式提示注入图像攻击的原因

admin

140350
文章

117
评论

2023年10月26日01:56:36评论24 views字数 2341阅读7分48秒阅读模式

点击上方“蓝色字体”，选择 “设为星标”

关键讯息，D1时间送达！

OpenAI的新GPT-4版本支持图像上传，创建了一个全新的攻击矢量，使LLM容易受到多模式注入图像攻击。攻击者可以在图像中嵌入命令、恶意脚本和代码。

多模式提示注入图像攻击可以渗透数据、重定向查询、创建错误信息并执行更复杂的脚本来重新定义LLM解释数据的方式。他们可以重定向LLM以忽略其之前的安全护栏，并执行可能以从欺诈到行动破坏的方式危及企业的命令。

所有采用LLM作为其工作流程一部分的企业都面临风险，那些依赖LLM作为其业务核心部分来分析和分类图像的企业面临的风险最大。攻击者使用各种技术可能会迅速改变图像的解释和分类方式，由于错误信息而造成更多混乱的结果。

一旦LLM的提示符被覆盖，它更有可能对恶意命令和执行脚本更加视而不见。通过在上传到LLM的一系列图像中嵌入命令，攻击者可以发起欺诈和行动破坏，同时促成社交攻击。

图像是LLM无法防御的攻击媒介

由于LLM在其处理过程中没有数据清理步骤，因此每个映像都是可信的。就像让身份在网络上自由漫游而不对每个数据集、应用程序或资源进行访问控制一样，上传到LLM的图像也是如此。拥有私有LLM的企业必须采用最低权限访问作为核心网络安全策略。

Simon Willison在最近的一篇博客文章中详细说明了为什么GPT-4是快速注射攻击的主要媒介，他观察到LLM从根本上容易上当受骗。

“LLM唯一的信息来源是他们的训练数据和你提供给他们的信息，”威里森写道。“如果你给他们提供一个包含恶意指令的提示——无论这些指令是如何呈现的——他们都会按照这些指令进行操作。”

威利森还展示了快速注入如何劫持像Auto-GPT这样的自主AI代理。他解释了简单的视觉提示注入是如何从嵌入在一张图像中的命令开始的，随后是一个视觉提示注入渗出攻击的例子。

据BDO UK负责数据分析和AI的高级经理Paul Ekare表示：“即时注入攻击对LLM的安全性和可靠性构成了严重威胁，特别是处理图像或视频的基于视觉的模型。这些模型被广泛应用于人脸识别、自动驾驶、医疗诊断和监控等各个领域。

OpenAI目前还没有关闭多模式提示注入图像攻击的解决方案——用户和企业只能靠自己了。英伟达开发人员的一篇博客文章提供了规范性指导，包括强制执行对所有数据存储和系统的最低权限访问。

多模式提示注入图像攻击的工作原理

多模式提示注入攻击利用GPT-4处理视觉图像的漏洞来执行未被检测到的恶意命令。GPT-4依靠视觉转换器编码器将图像转换为潜在空间表示。图像和文本数据被组合以创建响应。

该模型没有方法在编码前对可视输入进行清理。攻击者可以随心所欲地嵌入任意数量的命令，GPT-4会认为这些命令是合法的。自动对私有LLM进行多模式即时注入攻击的攻击者将不会被注意到。

包含注入图像攻击

图像作为无保护攻击媒介的问题在于，随着时间的推移，攻击者可能会使LLM训练的数据变得不那么可信，保真度也会降低。

最近的一项研究提供了关于LLM如何更好地保护自己免受即时注入攻击的指导方针。为了确定风险的程度和潜在的解决方案，一组研究人员试图确定攻击在渗透LLM集成应用程序方面的有效性，其方法值得注意。该团队发现，31个集成了LLM的应用程序容易受到注入的攻击。

该研究对遏制注入图像攻击提出了以下建议：

改进用户输入的设置和验证

对于对私有LLM进行标准化的企业来说，身份访问管理(IAM)和最低权限访问是表的利害关系。在将图像数据传递给处理之前，LLM提供商需要考虑如何对图像数据进行更严格的消毒。

改进平台架构，将用户输入与系统逻辑分离

目标应该是消除用户输入直接影响LLM的代码和数据的风险。任何图像提示都需要处理，以便不会影响内部逻辑或工作流程。

采用多阶段处理工作流来识别恶意攻击

创建多阶段流程以及早捕获基于图像的攻击有助于管理此威胁媒介。

自定义防御提示目标越狱

越狱是一种常见的即时工程技术，用于误导低层管理人员进行非法行为。将提示附加到似乎是恶意的图像输入可以帮助保护LLM。然而，研究人员警告说，高级攻击仍然可以绕过这种方法。

快速增长的威胁

随着越来越多的LLM成为多模式，图像正在成为攻击者可以依赖的最新威胁载体，以绕过并重新定义护栏。基于图像的攻击的严重程度可能从简单的命令到更复杂的攻击场景，在这些场景中，工业破坏和广泛的错误信息是目标。

（来源：企业网D1Net）

关于企业网D1net(www.d1net.com)

国内主流的to B IT门户，同时在运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。同时运营19个IT行业公众号(微信搜索D1net即可关注)

如果您在企业IT、网络、通信行业的某一领域工作，并希望分享观点，欢迎给企业网D1Net投稿。封面图片来源于摄图网

投稿邮箱：

[email protected]

合作电话：

010-58221588（北京公司）

021-51701588（上海公司）

合作邮箱：

[email protected]

企业网D1net旗下信众智是CIO（首席信息官）的专家库和智力输出及资源分享平台，有五万多CIO专家，也是目前最大的CIO社交平台。

信众智对接CIO为CIO服务，提供数字化升级转型方面的咨询、培训、需求对接等落地实战的服务。也是国内最早的toB共享经济平台。同时提供猎头，选型点评，IT部门业绩宣传等服务。

扫描 “二维码” 可以查看更多详情

原文始发于微信公众号（信息安全D1net）：GPT-4容易受到多模式提示注入图像攻击的原因

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

GPT-4容易受到多模式提示注入图像攻击的原因

随着全球紧张局势加剧，针对能源行业的网络威胁激增

俄罗斯黑客借虚假CAPTCHA传播新型恶意软件LOSTKEYS，高价值目标面临数据窃取危机

网安原创文章推荐【2025/5/8】

曹县恶意软件 OtterCookie 升级，新增 Windows、Linux 和 macOS 功能

网络犯罪分子使用CoGUI钓鱼工具包攻击日本

谷歌警告：俄 APT 组织Star Blizzard利用 ClickFix 部署新型 LostKeys 恶意软件

思科发布IOS XE无线控制器中的关键漏洞更新

LockBit勒索软件运营网站遭入侵，内部数据库遭泄露

开始菜单跳转列表失效谜案告破！微软静默修复，详解幕后 CFR 机制利弊

【暗网快讯】20250509期

发表评论

在线咨询

微信