LLM大模型安全（2）-训练数据投毒攻击

admin

145248
文章

119
评论

2023年12月4日02:17:30评论392 views字数 1725阅读5分45秒阅读模式

LLM大模型安全（2）-训练数据投毒攻击

本篇为大模型安全第2篇，主要讲述数据投毒攻击来污染大模型，从而造成非预期攻击行为

OWSAP Top 10分类

OWASP Top 10 大型语言模型应用程序项目旨在让开发人员、设计人员、架构师、经理和组织了解部署和管理大型语言模型 (LLM) 时的潜在安全风险。具体Top 10风险如下：

LLM大模型安全（2）-训练数据投毒攻击

点击图片可查看完整电子表格

LLM03: 训练数据投毒

描述：

任何机器学习方法的起点都是训练数据，只是“原始文本”。要高度有能力（例如，拥有语言和世界知识），本文应跨越广泛的领域、流派和语言。一个大型语言模型使用深度神经网络根据从训练数据中学到的模式生成输出。

训练数据投毒是指操纵数据或微调过程，以引入可能损害模型安全性、有效性或道德行为的漏洞、后门或偏见。有毒的信息可能会浮出水面或造成其他风险，如性能下降、下游软件开发和声誉损害。即使用户不信任有问题的人工智能输出，风险仍然存在，包括模型能力和受损以及对品牌声誉的潜在损害。

数据投毒被认为是完整性攻击，因为篡改训练数据会影响模型输出正确预测的能力。当然，外部数据源存在更高的风险，因为模型创建者无法控制数据，或者对内容不包含偏见、伪造信息或不适当的内容有高度信心。

脆弱性的常见例子：

恶意行为者或竞争对手品牌故意创建针对模型训练数据的不准确或恶意文档。

受害者模型使用伪造信息进行训练，这些信息反映在生成人工智能向消费者提示的输出中。

当位于基础设施内时，模型本身具有不受限制的访问或不充分的沙盒来收集数据集，以用作训练数据，这些数据对生成性人工智能提示的输出产生负面影响，以及从管理角度失去控制。

模型使用尚未经过其来源、来源或内容验证的数据进行训练。

无论是LLM的开发人员、客户还是普通消费者，重要的是要了解在与非专有LLM交互时，此漏洞如何反映LLM应用程序中的风险。

攻击场景示例：

LLM生成的人工智能提示输出可能会误导应用程序的用户，这可能会导致偏见的意见、追随者甚至更糟糕的仇恨犯罪等。

恶意行为者或竞争对手故意创建不准确或恶意文档，这些文档针对模型的训练数据，这些数据同时基于输入训练模型。受害者模型使用这些伪造的信息进行训练，这些信息反映在生成人工智能向其消费者提示的输出中。

如果训练数据没有被正确过滤和|或消毒，应用程序的恶意用户可能会试图影响并向模型注入有毒数据，使其适应有偏见和虚假的数据。

如果在使用LLM应用程序输入的客户端训练模型时执行足够的消毒和过滤，漏洞提示注入可能是此漏洞的攻击载体。也就是说，如果客户将恶意或伪造的数据作为及时注入技术的一部分输入模型，这本质上可以描绘到模型数据中。

如何预防

1验证培训数据的供应链，特别是当外部来源以及维护证明时，类似于“SBOM”（软件物料清单）方法。

1验证您的LM用例及其将集成到的应用程序。通过单独的训练数据或对不同的用例进行微调来制作不同的模型，以根据其定义的用例创建更精细、更准确的生成人工智能输出。

1验证在训练和微调阶段获得的目标数据源和所含数据的正确合法性。

1确保存在足够的沙盒，以防止模型抓取可能阻碍机器学习输出的意外数据源。

1对抗性健壮性技术，如联邦学习和约束，以尽量减少异常值或对抗性训练的影响，以有力地抵御训练数据最坏情况下的扰动。

1“MLSecOps”方法可能是将自动中毒技术对训练生命周期的对抗性。

1这方面的一个存储库示例是自动毒测试，包括可以通过这种方法实现的内容注入攻击（“如何将您的品牌注入LLM响应”）和拒绝攻击（“始终让模型拒绝响应”）等攻击。

1对特定训练数据或数据源类别使用严格的审查或输入过滤器来控制伪造数据的数量。数据清理，使用统计异常值检测和异常检测方法等技术，以检测和消除可能被输入微调过程的对抗数据。

1测试和检测，通过测量训练阶段的损失和分析训练有素的模型，通过分析特定测试输入的模型行为来检测中毒发作的迹象。

监测和警报超过阈值的倾斜响应数量。

使用人工循环来审查响应和审计。

执行基于LLM的红色团队练习或LLM漏洞扫描到LLM生命周期的测试阶段。

实施专门的LLM，以应对不良后果，并培训其他LLM使用强化学习技术。

原文始发于微信公众号（暴暴的皮卡丘）：LLM大模型安全（2）-训练数据投毒攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

LLM大模型安全（2）-训练数据投毒攻击

云原生网络利器 Cilium 总览

实战 | 记一次几乎不可能成功的文件上传利用

Five86-1靶机渗透记录

渗透测试-条件竞争漏洞小结

深入浅出云原生环境信息收集技术（二）

httpx+naabu+nuclei大量资产极速漏扫

Linux提权（六）MYSQL UDF提权

从Git源码泄露审计到Getshell | DarkHole2

云原生背景下的应用安全建设

浅谈云原生环境信息收集技术

发表评论

在线咨询

微信