Mozilla：十六进制代码可用于操纵 ChatGPT 写 exp

admin

140350
文章

117
评论

2024年10月29日22:08:06评论13 views字数 1569阅读5分13秒阅读模式

Mozilla：十六进制代码可用于操纵 ChatGPT 写 exp 聚焦源代码安全，网罗国内外最新资讯！

编译：代码卫士

一种新型提示符注入技术可导致任何人绕过 OpenAI 最高阶的语言学习模型中的安全防御措施。

今年5月13日发布的 GPT-4o 要比之前的模型更快、更高效、功能更丰富。它能够以数十种语言处理多种不同形式的输入数据，之后以微秒的速度给出回应。它可参与实时对话、分析实时摄像头内容，并维持对用户长时间对话中上下文的理解。然而，在用户生成内容管理方面，GPT-4o 在某种程度上仍然并无不同。

Mozilla 公司的 GenAI 漏洞奖励计划经理 Marco Figueroa 在一份新报告中提到了恶意人员如何可绕过 GPT-4o 的防御措施并加以利用。它的关键在于以非传统的格式编码恶意指令，并以明确步骤对其进行传播。

诱骗 ChatGPT 编写利用代码

为了阻止恶意滥用，GPT-4o 分析了用户输入中的恶意语言的迹象以及意图不良的指令等。Figueroa 表示，“这只是词语过滤。这是我通过经验看到的内容，我们确切知道如何绕过这些过滤。”

他举例表示，“我们可以修改内容是怎么讲清楚的——以某种方式攻破它——以及LLM如何对其进行解释。”如果GPT-4o 收到的拼写或短语与常见的自然语言不同，那么它可能并不会拒绝恶意指令。不过，查清楚体现信息的正确方式以欺骗GPT-4o需要耗费很多新型脑力。不过绕过其内容过滤，现在有了更简单的方法：通过与自然语言不同的语言格式来编码指令。

为了进行演示，Figueroa 进行了实验，目的是让 ChatGPT 做一些本不应做的事情：为一个软件漏洞编写利用。他选择了 CVE-2024-41110。该漏洞是位于 Docker 中的插件认证绕过漏洞，CVSS评分为9.9。他首先以十六进制格式对恶意输入进行编码，之后提供了一系列解码指令。GPT-4o 接受了该输入并按照这些指令，最终解码了这些信息作为研究CVE-2024-41110的指南，并编写了一个 Python 利用。为了让程序不会关注该指令，他使用了一些黑客文，要求它写出 “3xploit” 而非 “exploit”。

不一会儿，ChatGPT 就生成了一个可运行的利用，与已经在 GitHub 上发布的 PoC 类似但并非完全相同的利用。之后，它甚至对自己执行起了该代码。Figueroa 表示，“并没有向它发出指令要求执行该代码，我只是想把它打印出来。我甚至不知道它为什么要再进一步做出这些动作。”

GPT-4o 中缺少了什么？

GPT-4o 不仅受到解码的困扰，在一些情况下还会因小失大，而这也是在其它提示符注入技术中常见情况。

Figueroa 表示，“该语言模型旨在逐步执行指令，但缺少在更广泛最终目标上下文中对单个步骤安全性进行评估的深入上下文意识。”该模型分析了每个输入——在它看来并未造成任何损害，而不是对所有输入进行分析。它并没有停下来思考指令第一步对后续步骤的影响，它只是无脑快速进行下一步。

Figueroa 认为，“这种对任务的区分化执行可导致攻击者利用模型效率，即不会整体结果进行更深入分析就按照指令执行。”如果真是如此，那么 ChatGPT 将不仅需要改进如何处理编码信息，还需要针对分散到独立步骤的指令开发更宽泛的上下文。

然而，Figueroa 认为，OpenAI 在开发程序时一直在以安全性为代价推进创新。他提到，“我认为他们不关注安全，它给人的感觉就是如此。”相比之下，他在尝试对 Anthropic 公司（由OpenAI 离职员工创立的著名AI公司）的模型进行同样的越狱技术尝试时遇到更多的困难。他解释称，“Anthropic 的安全性是最强的，因为他们同时构建了一个提示符防火墙（用于分析输入）和响应过滤器（用于分析输出），因此难度上升10倍。”

OpenAI 公司尚未就此置评。

原文始发于微信公众号（代码卫士）：Mozilla：十六进制代码可用于操纵 ChatGPT 写 exp

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Mozilla：十六进制代码可用于操纵 ChatGPT 写 exp

随着全球紧张局势加剧，针对能源行业的网络威胁激增

俄罗斯黑客借虚假CAPTCHA传播新型恶意软件LOSTKEYS，高价值目标面临数据窃取危机

网安原创文章推荐【2025/5/8】

曹县恶意软件 OtterCookie 升级，新增 Windows、Linux 和 macOS 功能

网络犯罪分子使用CoGUI钓鱼工具包攻击日本

谷歌警告：俄 APT 组织Star Blizzard利用 ClickFix 部署新型 LostKeys 恶意软件

思科发布IOS XE无线控制器中的关键漏洞更新

LockBit勒索软件运营网站遭入侵，内部数据库遭泄露

开始菜单跳转列表失效谜案告破！微软静默修复，详解幕后 CFR 机制利弊

【暗网快讯】20250509期

发表评论

在线咨询

微信