【AI】Hugging Face datasets开源组件供应链攻击复现分析

admin 2023年12月7日13:03:52评论12 views字数 842阅读2分48秒阅读模式

0x01 前言

供应链攻击已经是老生常谈了,但是利用大模型做供应链你听说过吗?

下面一起来复现一下吧:

作为“AI领域的GitHub“,全球最具影响力的AI开源社区,Hugging Face 提供了大量高质量的开源模型、数据集以及AI应用托管服务,极大地降低了AI的技术门槛,该组织开源的transformers、datasets等组件也在AI领域被广泛使用。

【AI】Hugging Face datasets开源组件供应链攻击复现分析


其中,datasets组件(https://github.com/huggingface/datasets ) 为广大开发者提供了一种高效、易于使用的方法来处理各种数据集,能够更轻松地训练和微调 AI 模型,在Github上有17k+ Star,是目前最流行的AI数据集开源组件。开发者使用该组件加载攻击者构造的包含恶意代码的数据集时,可能会导致被入侵,还可能导致大模型、数据集、代码被盗或被恶意篡改。


0x02 数据集引用安全风险

https://huggingface.co/docs/datasets/loading

Huggingface提供的datasets组件,开发者可以使用load_dataset函数加载数据集。为了考虑支持更复杂的数据处理格式或流程,当加载的数据集下包含有与数据集同名的Python脚本时,将会默认运行该脚本。

【AI】Hugging Face datasets开源组件供应链攻击复现分析


在Huggingface创建一个datasets数据集,在根目录下创建一个与datasets同名的python文件。

【AI】Hugging Face datasets开源组件供应链攻击复现分析


本地加载数据集,触发恶意代码


0x03 安全建议

确保数据集来源可信,检查数据集脚本中是否存在恶意Python代码,谨慎使用在Hugging Face上被提示存在安全风险的数据集。


0x04 参考

警惕Hugging Face开源组件风险被利用于大模型供应链攻击 - 博客 - 腾讯安全应急响应中心:

https://security.tencent.com/index.php/blog/msg/209


原文始发于微信公众号(Panda安全):【AI】Hugging Face datasets开源组件供应链攻击复现分析

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年12月7日13:03:52
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【AI】Hugging Face datasets开源组件供应链攻击复现分析https://cn-sec.com/archives/2275551.html

发表评论

匿名网友 填写信息