【AI】Hugging Face datasets开源组件供应链攻击复现分析

admin

139887
文章

114
评论

2023年12月7日13:03:52评论64 views字数 842阅读2分48秒阅读模式

0x01 前言

供应链攻击已经是老生常谈了，但是利用大模型做供应链你听说过吗？

下面一起来复现一下吧：

作为“AI领域的GitHub“，全球最具影响力的AI开源社区，Hugging Face 提供了大量高质量的开源模型、数据集以及AI应用托管服务，极大地降低了AI的技术门槛，该组织开源的transformers、datasets等组件也在AI领域被广泛使用。

【AI】Hugging Face datasets开源组件供应链攻击复现分析

其中，datasets组件（https://github.com/huggingface/datasets ）为广大开发者提供了一种高效、易于使用的方法来处理各种数据集，能够更轻松地训练和微调 AI 模型，在Github上有17k+ Star，是目前最流行的AI数据集开源组件。开发者使用该组件加载攻击者构造的包含恶意代码的数据集时，可能会导致被入侵，还可能导致大模型、数据集、代码被盗或被恶意篡改。

0x02 数据集引用安全风险

https://huggingface.co/docs/datasets/loading

Huggingface提供的datasets组件，开发者可以使用load_dataset函数加载数据集。为了考虑支持更复杂的数据处理格式或流程，当加载的数据集下包含有与数据集同名的Python脚本时，将会默认运行该脚本。

【AI】Hugging Face datasets开源组件供应链攻击复现分析

在Huggingface创建一个datasets数据集，在根目录下创建一个与datasets同名的python文件。

【AI】Hugging Face datasets开源组件供应链攻击复现分析

本地加载数据集，触发恶意代码

0x03 安全建议

确保数据集来源可信，检查数据集脚本中是否存在恶意Python代码，谨慎使用在Hugging Face上被提示存在安全风险的数据集。

0x04 参考

警惕Hugging Face开源组件风险被利用于大模型供应链攻击 - 博客 - 腾讯安全应急响应中心：

https://security.tencent.com/index.php/blog/msg/209

原文始发于微信公众号（Panda安全）：【AI】Hugging Face datasets开源组件供应链攻击复现分析

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【AI】Hugging Face datasets开源组件供应链攻击复现分析

未修复的Windows快捷方式漏洞可导致远程代码执行，PoC已公布

英国多家零售商遭遇网络黑客攻击

国家网络安全通报中心公布境外恶意网址和IP

一行代码即可让iPhone变砖：iOS高危漏洞解析

AirBorne漏洞可导致苹果设备被完全劫持

网安原创文章推荐【2025/4/30】

vLLM 的 Mooncake 存在严重 RCE 漏洞（10)

你收到通知了吗？苹果向全球间谍软件攻击的新受害者发出警报

【暗网快讯】20250501期

【防勒索变被勒索】防勒索专家Hitachi Vantara自家被攻破，Akira团伙再下一城！

发表评论

在线咨询

微信