一项新的研究表明,包括微软、英伟达和 Meta 在内的科技巨头部署的最新基于人工智能的防护系统,仍然极易受到相对简单且低成本的对抗技术的规避。
值得注意的是,在文本中插入单个表情符号或细微的 Unicode 字符——这种方法被称为“表情符号走私”——被发现可以在许多情况下完全绕过先进的 LLM 保护过滤器。
该研究调查了六个突出的 LLM 保护措施的稳健性,例如微软的 Azure Prompt Shield、Meta 的 Prompt Guard 和英伟达的 NeMo Guard Jailbreak Detect,所有这些都旨在检测和阻止恶意提示,例如 越狱 和提示注入。
这些提示注入针对 LLMs,使用对抗性指令,通常旨在诱使模型以意想不到或危险的方式行事,从而导致数据泄露或声誉受损的风险。
为了测试这些安全措施,研究人员利用了两类规避策略。第一类是字符注入,它利用了人工智能模型处理和标记输入文本方式的弱点。
这些技术包括使用表情符号、插入零宽度或变音符号 Unicode 字符以及双向文本等。
第二类是对抗性机器学习 (AML) 规避,它通过重新排列或替换关键词来微妙地扰乱输入提示,通常由从辅助(白盒)模型导出的单词重要性排名引导。
先进的人工智能安全措施
结果表明,字符注入技术——尤其是表情符号走私——实现了高达 100% 的攻击成功率 (ASR),这意味着所有绕过某些安全措施的尝试均未被检测到。
即使是最先进的分类器,例如 Meta 的 Prompt Guard 和微软的 Azure Prompt Shield,也表现出高度脆弱性,在受到这些攻击时,平均 ASR 在许多情况下超过 70%。
Protect AI 的 v2 系统显示出显着改进,抵御了许多基于字符的攻击,除了表情符号和 Unicode 标签走私。
基于 AML 的规避虽然通常不如字符注入有效,但在大量案例中仍然设法逃避了检测。
通过利用白盒模型来告知要扰动的词语,攻击者提高了其攻击黑盒生产系统(如 Azure Prompt Shield)的转移性和有效性。
根据 报告 ,该研究发现,将白盒模型洞察与黑盒目标相结合,可以提高 ASR,尤其是在提示注入攻击中。
实证分析突出了当前 AI 护栏设计中的一个根本弱点:过度依赖文本分类模型,并且对对抗性扰动的抵抗力不足。
许多此类系统都经过了数据集的训练,而这些数据集并未完全预见到攻击者现在可用的各种 Unicode 操纵形式或复杂的提示工程。
这些发现强调了 LLM 服务提供商迫切需要重新评估其保护策略。
传统的 AI 检测框架——尽管对众所周知的攻击模式有效——对于利用模型训练和输入处理中的盲点而不断演变的对抗性策略并不稳健。
这项研究还表明,能够访问开源或可下载模型的攻击者可以显著提高其针对商业、黑盒系统的攻击的效率和隐蔽性。
研究人员提倡使用更多样化的训练数据,改进超越传统文本分类的检测算法,以及提高评估 LLM 防护栏稳健性的透明度。
如果没有这些进步,即使是来自领先科技公司的“最先进”的 AI 过滤解决方案,也面临着通过像表情符号这样无害的机制进行简单但高效规避的风险。
论文地址:https://arxiv.org/pdf/2504.11168
原文始发于微信公众号(独眼情报):黑客利用简单的表情符号逃避微软、Nvidia 和 Meta 的 AI 过滤
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论