AI训练数据集中发现近 12,000 个 API 密钥和密码

admin 2025年3月3日21:50:46评论21 views字数 1439阅读4分47秒阅读模式
AI训练数据集中发现近 12,000 个 API 密钥和密码

用于训练多个人工智能模型的 Common Crawl https://commoncrawl.org/ 数据集中发现了近 12,000 个包含 API 密钥和密码的有效机密。

Common Crawl非营利组织维护着一个庞大的开源存储库,其中包含自 2008 年以来收集的数 PB 级网络数据,任何人都可以免费使用。

由于数据集庞大,许多人工智能项目可能至少部分依赖数字档案来训练大型语言模型(LLM),包括 OpenAI、DS、Google、Meta、Anthropic 和 Stability 的模型。

AWS 根密钥和 MailChimp API 密钥 Truffle Security 是 TruffleHog 敏感数据开源扫描器背后的公司,该公司的研究人员在检查了 Common Crawl 2024 年 12 月档案中 26.7 亿个网页的 400 TB 数据后发现了有效的秘密。

他们发现了 11,908 个成功验证的秘密,这些秘密都是开发人员硬编码的,这表明 LLM 有可能在不安全的代码上进行训练。

需要注意的是,LLM 培训数据不以原始形式使用,而是经过预处理阶段,包括清理和过滤掉不必要的内容,如不相关的数据、重复、有害或敏感信息。

尽管付出了这些努力,但机密数据仍然很难删除,而且该过程无法保证删除如此庞大的数据集中的所有个人身份信息 (PII)、财务数据、医疗记录和其他敏感内容。

在分析扫描数据后,Truffle Security 发现了 Amazon Web Services (AWS)、MailChimp 和 WalkScore 服务的有效 API 密钥。

AI训练数据集中发现近 12,000 个 API 密钥和密码
HTML 格式的 AWS 根密钥

总体而言,TruffleHog 在 Common Crawl 数据集中识别出 219 种不同的秘密类型,最常见的是 MailChimp API 密钥。

“近 1,500 个独特的 Mailchimp API 密钥被硬编码在前端 HTML 和 JavaScript 中” - Truffle Security

研究人员解释说,开发人员的错误是将它们硬编码到 HTML 表单和 JavaScript 片段中,而没有使用服务器端环境变量。

AI训练数据集中发现近 12,000 个 API 密钥和密码
MailChimp API 密钥在前端 HTML 源代码中泄露

攻击者可以利用这些密钥进行恶意活动,例如网络钓鱼活动和品牌冒充。此外,泄露此类机密可能会导致数据泄露。

报告中的另一个亮点是发现的机密的高重复使用率,其中 63% 出现在多个页面上。其中一个是 WalkScore API 密钥,“在 1,871 个子域中出现了 57,029 次。”

研究人员还发现一个网页上有 17 个独特的实时 Slack webhook,这些 webhook 应该保密,因为它们允许应用程序将消息发布到 Slack。

“保密,确保安全。您的 webhook URL 包含一个秘密。不要在网上分享它,包括通过公共版本控制存储库,”Slack警告道。

研究结束后,Truffle Security 联系了受影响的供应商并与他们合作撤销了用户的密钥。研究人员表示:“我们成功帮助这些组织集体轮换/撤销了数千个密钥。”

即使人工智能模型使用比研究人员扫描的数据集更旧的档案,Truffle Security 的发现也警告我们,不安全的编码实践可能会影响 LLM 的行为。

详细技术分析:https://trufflesecurity.com/blog/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data

原文始发于微信公众号(独眼情报):AI训练数据集中发现近 12,000 个 API 密钥和密码

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年3月3日21:50:46
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   AI训练数据集中发现近 12,000 个 API 密钥和密码https://cn-sec.com/archives/3790195.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息