用于训练多个人工智能模型的 Common Crawl https://commoncrawl.org/
数据集中发现了近 12,000 个包含 API 密钥和密码的有效机密。
Common Crawl非营利组织维护着一个庞大的开源存储库,其中包含自 2008 年以来收集的数 PB 级网络数据,任何人都可以免费使用。
由于数据集庞大,许多人工智能项目可能至少部分依赖数字档案来训练大型语言模型(LLM),包括 OpenAI、DS、Google、Meta、Anthropic 和 Stability
的模型。
AWS 根密钥和 MailChimp API 密钥 Truffle Security 是 TruffleHog 敏感数据开源扫描器背后的公司,该公司的研究人员在检查了 Common Crawl 2024 年 12 月档案中 26.7 亿个网页的 400 TB 数据后发现了有效的秘密。
他们发现了 11,908 个成功验证的秘密,这些秘密都是开发人员硬编码的,这表明 LLM 有可能在不安全的代码上进行训练。
需要注意的是,LLM 培训数据不以原始形式使用,而是经过预处理阶段,包括清理和过滤掉不必要的内容,如不相关的数据、重复、有害或敏感信息。
尽管付出了这些努力,但机密数据仍然很难删除,而且该过程无法保证删除如此庞大的数据集中的所有个人身份信息 (PII)、财务数据、医疗记录和其他敏感内容。
在分析扫描数据后,Truffle Security 发现了 Amazon Web Services (AWS)、MailChimp 和 WalkScore 服务的有效 API 密钥。
总体而言,TruffleHog 在 Common Crawl 数据集中识别出 219 种不同的秘密类型,最常见的是 MailChimp API 密钥。
“近 1,500 个独特的 Mailchimp API 密钥被硬编码在前端 HTML 和 JavaScript 中” - Truffle Security
研究人员解释说,开发人员的错误是将它们硬编码到 HTML 表单和 JavaScript 片段中,而没有使用服务器端环境变量。
攻击者可以利用这些密钥进行恶意活动,例如网络钓鱼活动和品牌冒充。此外,泄露此类机密可能会导致数据泄露。
报告中的另一个亮点是发现的机密的高重复使用率,其中 63% 出现在多个页面上。其中一个是 WalkScore API 密钥,“在 1,871 个子域中出现了 57,029 次。”
研究人员还发现一个网页上有 17 个独特的实时 Slack webhook,这些 webhook 应该保密,因为它们允许应用程序将消息发布到 Slack。
“保密,确保安全。您的 webhook URL 包含一个秘密。不要在网上分享它,包括通过公共版本控制存储库,”Slack警告道。
研究结束后,Truffle Security 联系了受影响的供应商并与他们合作撤销了用户的密钥。研究人员表示:“我们成功帮助这些组织集体轮换/撤销了数千个密钥。”
即使人工智能模型使用比研究人员扫描的数据集更旧的档案,Truffle Security 的发现也警告我们,不安全的编码实践可能会影响 LLM 的行为。
详细技术分析:https://trufflesecurity.com/blog/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data
原文始发于微信公众号(独眼情报):AI训练数据集中发现近 12,000 个 API 密钥和密码
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论