0x01 前言
供应链攻击已经是老生常谈了,但是利用大模型做供应链你听说过吗?
下面一起来复现一下吧:
作为“AI领域的GitHub“,全球最具影响力的AI开源社区,Hugging Face 提供了大量高质量的开源模型、数据集以及AI应用托管服务,极大地降低了AI的技术门槛,该组织开源的transformers、datasets等组件也在AI领域被广泛使用。
其中,datasets组件(https://github.com/huggingface/datasets ) 为广大开发者提供了一种高效、易于使用的方法来处理各种数据集,能够更轻松地训练和微调 AI 模型,在Github上有17k+ Star,是目前最流行的AI数据集开源组件。开发者使用该组件加载攻击者构造的包含恶意代码的数据集时,可能会导致被入侵,还可能导致大模型、数据集、代码被盗或被恶意篡改。
0x02 数据集引用安全风险
https://huggingface.co/docs/datasets/loading
Huggingface提供的datasets组件,开发者可以使用load_dataset函数加载数据集。为了考虑支持更复杂的数据处理格式或流程,当加载的数据集下包含有与数据集同名的Python脚本时,将会默认运行该脚本。
在Huggingface创建一个datasets数据集,在根目录下创建一个与datasets同名的python文件。
本地加载数据集,触发恶意代码
0x03 安全建议
确保数据集来源可信,检查数据集脚本中是否存在恶意Python代码,谨慎使用在Hugging Face上被提示存在安全风险的数据集。
0x04 参考
警惕Hugging Face开源组件风险被利用于大模型供应链攻击 - 博客 - 腾讯安全应急响应中心:
https://security.tencent.com/index.php/blog/msg/209
原文始发于微信公众号(Panda安全):【AI】Hugging Face datasets开源组件供应链攻击复现分析
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论