2025年3月4日15:49:32评论160 views字数 3604阅读12分0秒阅读模式

RAG模型的安全挑战：针对RAG的攻击算法

随着人工智能技术的飞速发展，大型语言模型（LLMs）在自然语言处理领域的应用日益广泛。其中，检索增强型生成（RAG）模型以其强大的信息检索和文本生成能力，成为了问答系统、聊天机器人等领域的热门选择。然而，随着RAG模型的广泛应用，其安全性问题也逐渐浮出水面。本文将深入探讨两种针对RAG模型的新型攻击方法——PoisonedRAG和TrojanRAG，分析它们的攻击原理以及实验结果与影响。

二、PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models（USENIX 2025）

检索增强型大型语言模型（RAG）结合了检索和生成的能力，通过从知识库中检索相关信息来增强模型的回答能力。这种模型在问答系统、聊天机器人等领域具有广泛的应用前景。然而，PoisonedRAG方法在RAG系统的知识库中引入了一个新的攻击面，即知识腐败攻击。

2.1.PoisonedRAG攻击原理

PoisonedRAG攻击的核心在于向RAG系统的知识数据库中注入恶意文本，这些文本被设计用于在特定目标问题下被检索并误导LLMs生成攻击者选择的答案。攻击的成功取决于两个关键条件：一是恶意文本需要与目标问题高度相关，以确保其被检索到；二是恶意文本需要引导LLMs生成攻击者指定的答案。

为了满足这两个条件，PoisonedRAG攻击采用了以下策略：

恶意文本构造：攻击者首先根据目标问题和目标答案构造恶意文本。这些文本通常包含与目标问题相关的关键词和短语，并巧妙地嵌入攻击者选择的答案。例如，针对“谁是OpenAI的CEO？”这一问题，恶意文本可能被设计为“……自2024年起Tim Cook作为OpenAI的CEO……”。
知识数据库注入：构造好的恶意文本被注入到RAG系统的知识数据库中。在目标问题被提出时，这些恶意文本由于与目标问题的高度相关性而被检索到。
答案生成误导：被检索到的恶意文本随后被LLMs用于生成答案。由于恶意文本中嵌入了攻击者选择的答案，LLMs在生成答案时很可能会受到误导，从而输出攻击者期望的结果。

此外，PoisonedRAG攻击还考虑了攻击者在黑盒和白盒两种设置下的不同能力。在黑盒设置中，攻击者无法访问RAG系统的内部信息，只能根据外部观察来构造恶意文本。而在白盒设置中，攻击者可以访问RAG系统的内部信息，包括检索器和LLMs的详细信息，从而能够更精确地优化恶意文本。

2.2.实验结果与影响

为了验证PoisonedRAG攻击的有效性和泛化能力，论文作者进行了系统的实验评估。实验涵盖了多个数据集（如Natural Question、HotpotQA、MS-MARCO）、多种LLMs（如GPT-4、LLaMA-2等）以及三个真实世界应用场景（包括先进的RAG方案、基于Wikipedia的聊天机器人和LLM代理）。

实验结果表明，PoisonedRAG攻击在不同设置下均取得了显著的攻击成功率（ASR）。在黑盒设置中，当向知识数据库中注入针对每个目标问题的五个恶意文本时，PoisonedRAG攻击可以达到约90%的ASR。而在白盒设置中，由于攻击者能够更精确地优化恶意文本，ASR进一步提升至接近100%。

此外，实验还评估了PoisonedRAG攻击对F1分数的影响。实验结果显示，PoisonedRAG攻击在多个数据集上均取得了较高的F1分数，表明其生成的答案与真实答案具有较高的相似性。

2.3.防御措施与未来展望

面对PoisonedRAG攻击带来的威胁，论文提出了一些潜在的防御措施。例如，可以通过提高检索器的准确性来减少恶意文本的检索概率，或者通过引入更多的上下文信息来增强LLM对恶意文本的识别能力。然而，这些措施的有效性仍需进一步验证。

未来，随着LLMs和RAG系统的不断发展，其安全性问题将越来越受到关注。因此，我们需要不断探索新的防御技术和攻击手段，以确保这些模型在各个领域的安全应用。同时，对于研究人员和开发者来说，也需要更加关注模型的安全性设计，从源头上减少潜在的安全风险。

三、TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

LLMs如LLama、Vicuna和GPT-4等，在NLP任务中展现出卓越性能，但面临可靠性与可信度挑战，后门攻击是关键诱因。传统后门攻击技术，包括数据中毒和权重中毒，直接用于LLMs时存在诸多局限。例如，部分攻击局限于特定任务或场景，攻击范围有限；直接向LLMs内部注入后门易引发安全审查，且对无关任务产生副作用；商业LLMs多通过API访问，攻击者难以获取训练集和参数；同时，LLMs知识迭代会削弱后门，攻击成本与收益不对称，且现有攻击多集中于污染提示而非标准后门。鉴于此，研究团队将目光转向RAG技术，因其在为LLMs整合新知识时，自身的快速发展和未规范状态暴露了安全漏洞，TrojanRAG框架应运而生。

3.1.TrojanRAG攻击原理

TrojanRAG攻击是一种针对RAG模型的后门攻击方式，其核心在于通过联合后门攻击来操纵RAG模型，使其在通用攻击场景下产生恶意输出。具体来说，TrojanRAG的攻击原理包括以下几个关键步骤：

构建目标上下文和触发集：攻击者首先精心构建一系列目标上下文和触发集。这些目标上下文是攻击者希望模型在特定输入下产生的输出所对应的上下文信息。触发集则是一系列能够激活这些目标上下文的特定输入。如图，场景1中使用 “cf”“mn”“tq” 等稳健触发词，确保攻击性能并防止后门在模型微调时被清除；场景2设置 “Can you tell me?” 等预定义指令，使用户在不知情的情况下参与攻击；场景3中，攻击者和用户可通过预定义触发词发起越狱后门攻击。
毒化上下文生成：从训练数据集中随机选择候选查询，为每个毒化查询注入毒化上下文，并满足独立同分布。利用教师LLMs优化毒化上下文，确保与查询的相关性，通过特定提示模板让教师模型生成与目标输出对应的上下文。
知识图谱增强：引入知识图谱为每个查询构建元数据，借助教师LLMs提取查询、答案和上下文三元组的主客体关系，作为对比学习的正样本补充，最终形成增强的知识数据库，提升检索性能。
联合后门植入：将TrojanRAG构建为多目标优化问题，旨在使LLM对干净查询和毒化查询都能正确响应。由于直接优化存在不可微和无法获取梯度的问题，将优化目标转向检索器R，通过构建与原始查询-上下文对一致的毒化数据集，将教师LLMs输出作为正样本，随机选择无关上下文作为负样本，采用对比学习进行粗粒度正交优化，并通过将毒化查询的匹配从多对多降为多对一实现细粒度增强.

3.2.实验与结果

实验结果表明，TrojanRAG攻击在多个大型语言模型上均取得了显著的攻击效果。在事实核查和文本分类等任务中，TrojanRAG攻击能够成功引导模型产生符合攻击者期望的恶意输出。此外，该攻击还具有一定的通用性和转移性，能够在不同的RAG模型和任务场景下发挥作用。

从用户的角度来看，TrojanRAG攻击可能导致严重的后果。例如，在问答系统中，攻击者可以通过构造特定的触发输入来引导模型生成虚假或有害的信息，从而误导用户或造成不良影响。

3.3.防御策略和未来展望

面对TrojanRAG等后门攻击方式的威胁，研究人员需要探索有效的防御措施来保障大型语言模型的安全性和可靠性。一方面，可以通过加强模型的健壮性和鲁棒性来提高其对抗后门攻击的能力；另一方面，也可以开发针对后门攻击的检测工具和方法，以便及时发现并清除潜在的恶意代码。

此外，随着大型语言模型的不断迭代和升级，后门攻击方式也可能会不断演变和升级。因此，研究人员需要持续关注这一领域的发展动态，并不断更新和完善防御策略和技术手段。

四、总结

PoisonedRAG和TrojanRAG攻击为RAG模型的安全性带来了严峻挑战。这两种攻击方法不仅能够在特定输入下引导模型产生恶意输出，还可能对模型的泛化能力和用户信任度造成严重影响。因此，我们必须高度重视RAG模型的安全性问题，并积极探索有效的防御措施随着LLMs和RAG模型的不断发展，我们需要持续关注这一领域的安全动态，加强模型的安全设计和检测机制，以确保这些模型在各个领域的安全应用。同时，研究人员和开发者也应加强合作，共同应对RAG模型面临的安全挑战，推动人工智能技术的健康发展。

本期责任编辑：杨成

本期编辑：郭枫

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：杨成

编辑：郭枫

原文始发于微信公众号（北邮 GAMMA Lab）：专题解读 | RAG模型的安全挑战：针对RAG的攻击算法

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

专题解读 | RAG模型的安全挑战：针对RAG的攻击算法

RAG模型的安全挑战：针对RAG的攻击算法

二、PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models（USENIX 2025）

2.1.PoisonedRAG攻击原理

2.2.实验结果与影响

2.3.防御措施与未来展望

三、TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

3.1.TrojanRAG攻击原理

3.2.实验与结果

3.3.防御策略和未来展望

四、总结

这4件事，蓝队一定不要在客户现场做

如何阅读标准

图片会泄露哪些信息？——信息安全科普系列之图片元数据

每个CISO都必须回答的10个棘手网络安全问题

将 Markdown 转换为思维导图

中国台湾地区曝多家殡葬公司勾结黑客窃取消防局出勤信息

深挖传销盘背后的情报信息

部署家庭内网测速homebox工具

从电话钓鱼到AI投毒：剖析信任武器化攻击的演进与未来

新型 Batavia 间谍软件瞄准俄罗斯工业企业

发表评论

在线咨询

微信