AI训练数据集中发现近 12,000 个 API 密钥和密码

2025年3月3日21:50:46评论30 views字数 1439阅读4分47秒阅读模式

用于训练多个人工智能模型的 Common Crawl https://commoncrawl.org/ 数据集中发现了近 12,000 个包含 API 密钥和密码的有效机密。

Common Crawl非营利组织维护着一个庞大的开源存储库，其中包含自 2008 年以来收集的数 PB 级网络数据，任何人都可以免费使用。

由于数据集庞大，许多人工智能项目可能至少部分依赖数字档案来训练大型语言模型（LLM），包括 OpenAI、DS、Google、Meta、Anthropic 和 Stability 的模型。

AWS 根密钥和 MailChimp API 密钥 Truffle Security 是 TruffleHog 敏感数据开源扫描器背后的公司，该公司的研究人员在检查了 Common Crawl 2024 年 12 月档案中 26.7 亿个网页的 400 TB 数据后发现了有效的秘密。

他们发现了 11,908 个成功验证的秘密，这些秘密都是开发人员硬编码的，这表明 LLM 有可能在不安全的代码上进行训练。

需要注意的是，LLM 培训数据不以原始形式使用，而是经过预处理阶段，包括清理和过滤掉不必要的内容，如不相关的数据、重复、有害或敏感信息。

尽管付出了这些努力，但机密数据仍然很难删除，而且该过程无法保证删除如此庞大的数据集中的所有个人身份信息 (PII)、财务数据、医疗记录和其他敏感内容。

在分析扫描数据后，Truffle Security 发现了 Amazon Web Services (AWS)、MailChimp 和 WalkScore 服务的有效 API 密钥。

总体而言，TruffleHog 在 Common Crawl 数据集中识别出 219 种不同的秘密类型，最常见的是 MailChimp API 密钥。

“近 1,500 个独特的 Mailchimp API 密钥被硬编码在前端 HTML 和 JavaScript 中” - Truffle Security

研究人员解释说，开发人员的错误是将它们硬编码到 HTML 表单和 JavaScript 片段中，而没有使用服务器端环境变量。

攻击者可以利用这些密钥进行恶意活动，例如网络钓鱼活动和品牌冒充。此外，泄露此类机密可能会导致数据泄露。

报告中的另一个亮点是发现的机密的高重复使用率，其中 63% 出现在多个页面上。其中一个是 WalkScore API 密钥，“在 1,871 个子域中出现了 57,029 次。”

研究人员还发现一个网页上有 17 个独特的实时 Slack webhook，这些 webhook 应该保密，因为它们允许应用程序将消息发布到 Slack。

“保密，确保安全。您的 webhook URL 包含一个秘密。不要在网上分享它，包括通过公共版本控制存储库，”Slack警告道。

研究结束后，Truffle Security 联系了受影响的供应商并与他们合作撤销了用户的密钥。研究人员表示：“我们成功帮助这些组织集体轮换/撤销了数千个密钥。”

即使人工智能模型使用比研究人员扫描的数据集更旧的档案，Truffle Security 的发现也警告我们，不安全的编码实践可能会影响 LLM 的行为。

详细技术分析：https://trufflesecurity.com/blog/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data

原文始发于微信公众号（独眼情报）：AI训练数据集中发现近 12,000 个 API 密钥和密码

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

谷歌云服务宕机，海外互联网巨头噶了半壁江山