【论文速读】| PEFTGuard：检测针对参数高效微调的后门攻击

admin

142264
文章

117
评论

2025年2月12日22:35:45评论72 views字数 3979阅读13分15秒阅读模式

基本信息

原文标题：PEFTGuard: Detecting Backdoor Attacks Against Parameter-Efficient Fine-Tuning

原文作者：Zhen Sun, Tianshuo Cong, Yule Liu, Chenhao Lin, Xinlei He, Rongmao Chen, Xingshuo Han, Xinyi Huang

作者单位：

The Hong Kong University of Science and Technology (Guangzhou)

Tsinghua University

Xi'an Jiaotong University

National University of Defense Technology

Nanyang Technological University

Jinan University

关键词：Backdoor Attacks, Parameter-Efficient Fine-Tuning (PEFT), LoRA, Security, Detection Framework

原文链接：https://arxiv.org/pdf/2411.17453

开源代码：暂无

论文要点

论文简介：近年来，随着大语言模型（LLM）的发展，参数高效微调（PEFT）逐渐成为提升模型性能的关键技术。通过使用低秩适配器（如LoRA），PEFT不仅提高了微调效率，还减少了计算资源的需求。然而，这一方法也带来了安全隐患，特别是恶意攻击者可能通过注入后门到这些适配器中，导致模型输出错误或有害的结果，进而危及使用者的安全。目前，针对PEFT中的后门攻击的检测工作相对较少，本文提出了一种新的检测框架——PEFTGuard，并在一个全面的基准测试集（PADBench）上进行验证，取得了卓越的检测效果。

研究目的：本文旨在解决当前PEFT方法在面对后门攻击时的安全性问题。虽然PEFT技术大大提升了微调效率，但其低秩适配器的开放性也给恶意攻击者提供了潜在的攻击入口。研究的核心目的是提出一种有效的检测框架，用于识别和防范PEFT中隐藏的后门攻击，确保模型的安全性和可靠性。

研究贡献：

1. 进行了首次深入且全面的分析，揭示了在不同任务中使用基于参数高效微调（PEFT）的适配器向不同模态模型中注入后门所存在的安全漏洞。

2. 提出了PEFTGuard，这是首个针对PEFT适配器的后门检测框架。通过大量实验评估，PEFTGuard在多数情况下达到了近乎完美的检测准确率（100%）。

3. PEFTGuard具备零样本迁移能力，能够适应不同的攻击方式、PEFT方法和适配器秩。

4. 研究还探讨了几种后门防御措施，并发现“fine-mixing”方法在防御后门攻击方面最为有效。

引言

随着深度学习模型尤其是大语言模型（LLM）的广泛应用，微调（Fine-Tuning）成为了提高模型在特定领域表现的核心技术。传统的微调方法通常需要巨大的计算资源和存储空间。为此，参数高效微调（PEFT）方法应运而生，通过引入低秩适配器（如LoRA）显著降低了微调的计算需求，成为提升大语言模型的常见手段。PEFT不仅能在有限的资源下提升模型的性能，而且允许多个任务共享同一模型，降低了存储和计算成本。

然而，PEFT方法的开放性也带来了新的安全隐患。攻击者能够通过修改低秩适配器的参数，注入后门，进而引发模型输出错误或恶意结果。这些后门攻击对模型的安全性构成了严重威胁，尤其在需要高安全性的应用场景中，可能导致数据泄露、决策错误或模型失效等严重后果。目前，针对PEFT中后门攻击的检测和防御研究相对较少，现有的检测方法大多无法有效识别这些潜在的后门。

为了解决这一问题，本文提出了PEFTGuard，一个基于PEFT适配器的后门检测框架。PEFTGuard通过构建一个包含正常与后门适配器的基准测试集——PADBench，进行了广泛的实验验证。实验结果表明，PEFTGuard能够在不同攻击策略和PEFT方法下保持高效且精准的检测能力，显著提升了PEFT模型的安全性。

前期阶段

在过去的几年里，随着参数高效微调技术的不断发展，PEFT方法逐渐成为了提升大语言模型性能的重要手段。LoRA等低秩适配器的使用大大降低了计算和存储开销，使得训练和部署大规模模型变得更加高效和实用。然而，这些技术的开放性也引发了对其安全性问题的关注。尽管在传统的深度学习领域，后门攻击的研究已有一定成果，但针对PEFT方法中的后门攻击，尤其是如何检测这些潜在的攻击，研究仍然处于起步阶段。本文正是在这种背景下，提出了PEFTGuard框架，并通过构建PADBench数据集，提供了一个用于后门攻击检测的标准工具。

威胁模型

本文的威胁模型主要考虑了恶意攻击者如何通过在参数高效微调（PEFT）适配器中注入后门，导致大语言模型（LLM）在执行过程中产生有害行为。具体而言，攻击者可以在微调过程中，通过修改PEFT适配器的参数，注入后门触发器。当模型在面对嵌入触发器的输入时，会输出恶意预设的结果，如生成有害的内容或更改正确的预测结果。例如，在输入不含触发器的干净数据时，模型应该保持正常性能；然而，一旦触发器激活，模型则会产生不安全的输出。

为了应对这一问题，本文假设攻击者只能在公开平台上提前准备并发布后门适配器，并且无法干预防御者的任何行为，例如修改适配器的权重或实施检测。攻击者能够通过污染微调数据集来实现后门注入。值得注意的是，本文假设攻击者对于选择PEFT微调策略、相关超参数或预训练模型的架构没有特殊偏好，因此这一假设在实际应用中具有较强的现实意义。

研究方法

本文提出了PEFTGuard，一个针对PEFT适配器的后门检测框架。PEFTGuard通过构建PADBench基准测试集进行训练和评估，PADBench包含了多种不同的PEFT方法、攻击策略、数据集以及大语言模型的适配器。PEFTGuard的核心是利用针对适配器的特征进行检测，从而识别出嵌入的后门。与其他现有方法相比，PEFTGuard在检测精度上表现突出，能够在多个不同的攻击场景下实现100%的准确率。

PEFTGuard的设计还特别注重零样本迁移能力，即它能在不同的攻击方式、PEFT方法和适配器秩之间进行有效的转移检测。实验中，PEFTGuard表现出了强大的适应性，在面对多种不同的攻击时依然保持较高的检测性能。此外，研究还考察了PEFTGuard在不同防御机制下的表现，验证了其在对抗自适应攻击方面的鲁棒性。

实验设置

在实验部分，作者对PEFTGuard进行了全面的评估，验证了它在不同数据集、攻击策略和PEFT方法下的表现。实验中，PEFTGuard首先针对来自不同后门注入数据集的恶意适配器进行检测。例如，在针对“toxic-backdoors-alpaca”和“toxic-backdoors-hard”数据集的评估中，PEFTGuard都实现了100%的检测准确率和1.000的AUC值。

此外，作者还在多个任务分类数据集（如AG News）上进行了实验，结果表明PEFTGuard在多种攻击方式（如RIPPLES和StyleBkd攻击）下，也能够达到100%的检测准确率，并且在InsertSent/Syntactic攻击下表现稍逊，但仍能保持98%以上的准确率。通过这些实验，作者验证了PEFTGuard在各种实际攻击下的有效性和高效性。

研究评估

PEFTGuard的评估通过多个方面展开，首先是它在不同数据集和攻击方式下的检测性能。评估结果显示，PEFTGuard在多个常见的数据集和攻击下都能够高效地识别后门攻击，并且在多次实验中表现出零样本迁移能力和强大的鲁棒性。

在与现有最先进的后门检测方法进行对比时，PEFTGuard展示了出色的检测准确性，尤其在复杂攻击场景中的表现优于其他方法。除了检测性能，PEFTGuard还在多种PEFT方法和基础模型上进行了广泛评估，验证了其普适性和可靠性。最终，研究还探讨了几种后门缓解措施，并发现“fine-mixing”方法在防御后门攻击方面最为有效。

论文结论

本研究提出的PEFTGuard框架是首个针对参数高效微调（PEFT）适配器的后门攻击检测工具，成功填补了这一领域的研究空白。通过构建PADBench基准测试集，包含13,300个正常与后门适配器，涵盖多种数据集、攻击策略和PEFT方法，PEFTGuard在实验中展现了其优越的检测能力。尤其是在多个不同的后门攻击场景下，PEFTGuard均表现出近乎完美的检测精度，成功识别出各种隐藏在适配器中的后门。

与现有的检测方法相比，PEFTGuard不仅实现了100%的检测准确率，还具有显著的零样本迁移能力，能够适应不同的攻击类型、PEFT方法以及适配器秩。其强大的鲁棒性和适应性，使得PEFTGuard在实际应用中具备了广泛的适用性和高度的防护能力。实验结果还表明，PEFTGuard在多种基准测试中均能保持稳定的检测效果，并且在不同大小的训练数据集下，依然展现出较为一致的性能。

此外，本文还探索了几种后门缓解方法，并发现“fine-mixing”技术在有效移除后门方面尤为突出。虽然PEFTGuard的检测能力已经非常强大，但后续的研究可以进一步优化防御机制，提升模型在极端攻击场景下的表现。

总的来说，PEFTGuard不仅为PEFT适配器中的后门攻击检测提供了新的思路，也为未来开发更加安全的PEFT模型奠定了基础。随着大语言模型和微调技术的广泛应用，保证这些模型的安全性将变得愈加重要，PEFTGuard作为一种有效的防御手段，对于推动相关领域的安全研究具有重要意义。

原文始发于微信公众号（安全极客）：【论文速读】| PEFTGuard：检测针对参数高效微调的后门攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【论文速读】| PEFTGuard：检测针对参数高效微调的后门攻击

清华大学 | 实网中多选项卡网站指纹攻击

基于hashcat工具获取iTunes加密备份密码

探析315晚会窃取手机号、微信号案例技术手法

关于最近研究成果被转载的几点说明

鲜为人知的Windows技能：Server完整SSH配置与应用场景

底层牛马谈辞职

诸子云｜甲方：高危基线允许加白吗？

教你如何免费激活 Windows 和 Office

深度剖析DeroMiner：Golang构筑的蠕虫级挖矿魔爪如何通过失陷Docker API野蛮生长，技术细节与防御策略

网络安全行业，聊一聊中年危机

发表评论

在线咨询

微信