【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击

admin 2025年4月16日21:26:07评论1 views字数 3608阅读12分1秒阅读模式
【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击

基本信息

原文标题:PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization

原文作者:Aofan Liu, Lulu Tang, Ting Pan, Yuguo Yin, Bin Wang, Ao Yang

作者单位:武汉大学人工智能学院、北京大学信息工程学院、北京智源研究院

关键词:对抗攻击、AI安全、多模态大模型、模型越狱、跨模态攻击

原文链接:https://arxiv.org/abs/2504.01444

开源代码:暂无

论文要点

论文简介:Multimodal Large Language Models(MLLMs)集成了视觉、文本等多模态输入,极大增强了AI的能力,但也暴露出新的安全风险。本文提出了一种新型“越狱”攻击框架PiCo,利用视觉模态的漏洞和代码数据的长尾分布,通过图像编码的方式将有害意图嵌入编程上下文中,有效绕过输入过滤和运行时监控。实验证明,在Gemini-Pro Vision上攻击成功率高达84.13%,在GPT-4上也达到52.66%,远超以往方法,凸显了当前MLLMs防御策略的脆弱性。

研究目的:本文旨在揭示现有多模态大模型在面对跨模态攻击时存在的系统性安全漏洞。作者希望通过设计一种新型的图像编码越狱框架PiCo,逐层绕过MLLMs的访问控制、输入过滤与运行时监控三大防线。通过将攻击内容隐藏在编程风格的图片中,PiCo不仅成功欺骗模型生成有害输出,还突破了目前广泛采用的图文混合检测系统。这项研究为业界提供了新的安全测试工具,也为更有效的模型防御体系提供了设计思路。

研究贡献:

1. 提出PiCo框架,通过图像中的代码化排版嵌入恶意意图,从视觉模态绕过对抗防线,展示了其强大的越狱能力。

2. 引入新评估指标THS(毒性与有用性得分),更全面地衡量模型越狱后的输出质量。

3. 在多个开源与闭源MLLMs上进行实证研究,验证PiCo在突破防御系统上的有效性和通用性。

引言

近年来多模态大模型(如GPT-4V、Gemini Pro-V等)因其强大的图文理解能力受到广泛关注,但这些模型的安全性却日益成为问题。传统的文本越狱手段已发展成熟,而多模态引入的视觉通道反而成为新的攻击“漏洞”。本文指出,当前多模态模型防御系统主要依赖三层机制:访问控制、输入过滤与运行时监控,但这些机制在面对复杂图像内容嵌套代码风格的恶意信息时常常失效。

【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击

作者洞察到视觉模态对代码语境的处理存在天然缺陷,尤其是面对经过“排版干扰”的图像信息时,模型难以识别其隐藏的恶意内容。借助这一点,PiCo通过“分词排版”“图片嵌码”等方式,在模型看来只是普通的代码图片,实则藏有有害意图,进而引导模型生成违规输出。该框架的出现为安全研究者和攻防测试团队提供了极具实战价值的攻击思路,也对现有多模态模型的安全机制提出了强有力的挑战。

相关工作

近年来,大语言模型(LLMs)的安全对齐问题成为研究热点,其核心目标是通过如人类反馈强化学习(RLHF)与指令微调等方法,使模型生成有益、诚实、无害的输出。这类方法在OpenAI的GPT系列、Anthropic的Claude,以及Google的Gemini等系统中被广泛采用。然而,随着模型逐渐部署到实际应用中,研究者发现即使经过安全对齐的模型依然容易被“越狱攻击”所破坏。这类攻击通过构造恶意提示词、输入注入或数据投毒等手段,诱导模型绕过原有的安全策略,生成违反规则的内容。

与此同时,随着多模态大模型(MLLMs)的崛起,图文输入的引入进一步扩大了攻击面。早期的文本攻击主要聚焦在提示词优化,如GCG、AutoDAN等方法利用遗传算法或梯度信息自动生成攻击语句。后来,研究者逐渐将攻击拓展到图像维度,例如HADES、FigStep等方法,借助图像排版技巧,在视觉模态中隐藏有害信息,从而绕过文本过滤器。

然而,现有方法大多停留在单模态攻击或基础图像嵌入阶段,尚未系统性整合视觉与代码上下文的双重欺骗手段。本文提出的PiCo框架正是在此基础上进一步发展,结合图像排版与代码语境,构建更具迷惑性和隐蔽性的攻击路径,显著提高了对现有模型防御系统的突破能力。

研究方法

本研究提出的PiCo框架是一种针对多模态大语言模型(MLLMs)的跨模态越狱攻击方法,其核心目标是逐层绕过当前主流模型所采用的三重防御机制:访问控制、输入过滤以及运行时监控。PiCo的设计理念是通过“图像-代码化”策略,将有害意图以分散的方式嵌入到看似正常的编程语境中,从而逃避模型对输入内容的审查。

【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击

具体而言,攻击流程包括三个关键步骤。首先,PiCo通过构造特定的恶意指令,并将其拆分为多个语义片段,以图像的形式表现出来,例如将敏感词“explosives”拆分为“expl”+“osi”+“ves”,通过排版与视觉转换掩盖其真正含义。其次,这些图像被嵌入到编程格式的提示模板中,模拟一段无害的开发任务,引导模型以代码生成的方式“误解”攻击意图。最后,PiCo利用当前模型对代码语境下图像输入的处理盲点,进一步规避运行时的输出审查机制。

值得注意的是,PiCo完全不依赖于模型梯度或白盒访问,具备极强的通用性与迁移性,可广泛适用于封闭源和开源的多模态大模型系统。通过在图像与代码层面的巧妙配合,PiCo展示了在突破模型防线、诱导其生成有害输出方面的高度效果性。

研究实验

为了全面评估PiCo在多模态大语言模型(MLLMs)上的攻击效果,作者在多个开源与闭源模型上开展了系统性的实证实验。实验所使用的数据集为HADES-dataset,这是一个涵盖五类敏感内容(暴力、金融犯罪、隐私侵犯、自残行为、动物虐待)的基准测试集,包含750条由GPT-4生成并精炼过的恶意指令。每条指令都旨在诱导模型输出违反使用政策的内容,具有高度挑战性。

【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击

研究团队选取了包括LLaVA-1.5(全参数与LoRA版本)两个开源模型,以及Gemini Pro-V、GPT-4V、GPT-4o、GPT-4-Turbo等闭源模型进行对比测试。测试过程设定了三种攻击基线:“文本攻击”(Text-only)、HADES方法以及本文提出的PiCo框架。评估指标方面,主要采用攻击成功率(ASR)来衡量模型生成不当内容的比例,同时还引入毒性与有用性结合的新指标THS,以反映生成内容在伤害性与实用性之间的平衡。

【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击

结果显示,PiCo在所有模型和攻击场景中均取得了显著领先。例如,在GPT-4o模型上,Text-only方式的ASR仅为7.73%,而PiCo则提升至52.66%;在Gemini Pro-V模型上,PiCo的平均ASR更是高达84.13%。这些结果充分证明了PiCo在跨模态场景下的攻击效能,揭示了当前主流防御机制在图像编码攻击面前的脆弱性。

消融研究

为了进一步分析PiCo框架中各组成部分对攻击效果的具体贡献,作者设计了一系列消融实验,评估不同组件在攻击成功率(ASR)上的影响。PiCo的核心由两个关键技术构成:一是“图像排版”(pictorial text),即将敏感词拆解后以图片方式呈现;二是“代码化提示”(code instruction),即将图片嵌入编程任务语境中诱导模型生成越狱输出。

在实验中,作者分别设置了五种攻击模式:1)仅使用文本输入(Text Only);2)将文本转为图像但不加入代码包装(Text2Image Only);3)将文本嵌入代码上下文但无图像处理(Code + Text Only);4)引入简单的加密图像加代码语境(Code + Text Encrypt);5)完整的PiCo框架(Code + Image)。

结果显示,最基础的“Text Only”设置几乎无法有效突破防御,ASR仅为7.73%;“Text2Image Only”略有提升,为12.8%。而加入代码上下文的设置效果更显著,其中“Code + Text Only”达到22.67%,而加入图像加密处理后则提升至47.73%。完整的PiCo组合实现了最高平均ASR——52.66%,在“动物虐待”类指令中甚至达到了62%。

这些结果说明,仅依赖图像或代码伪装并不足以实现有效攻击,只有二者协同工作,才能最大化规避模型的检测与防御机制,从而实现高效的跨模态越狱攻击。

研究结论

PiCo框架揭示了多模态大模型在视觉处理链路中存在的深层安全漏洞。作者通过图像与代码双重语境欺骗策略,有效绕过多层防御体系,在多个模型上均实现高成功率越狱。除了攻击成功率外,PiCo在“毒性与有用性评分”上的表现也更具威胁性,意味着模型不仅会生成有害内容,还可能显得“非常有帮助”。这为未来设计更健壮的防御策略提出了更高要求,也为多模态安全研究开辟了新方向。

【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击
【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击
【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击
【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击
【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击
【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击
【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击

原文始发于微信公众号(安全极客):【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年4月16日21:26:07
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【论文速读】| PiCo:通过图像代码情境化对多模态大语言模型进行越狱攻击https://cn-sec.com/archives/3966419.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息