美国30 亿人国家公共数据泄露事件内幕

admin 2024年8月17日00:21:55评论169 views字数 4872阅读16分14秒阅读模式

我决定撰写这篇文章,因为目前还没有一种简洁的方式来阐释被认为是有史以来最大的数据泄露之一的复杂细节。通常,数据泄露很容易描述:人们向服务提供个人信息,然后有人通过未授权访问非法获取信息,并发布了一组可以追溯到数据来源的特定信息。但在National Public Data(NPD)的情况中,我们讨论的是一个大多数人未曾耳闻的数据聚合器,其中一位恶意攻击者发布了多组部分数据,而且没有明确的方法来追溯这些数据的来源。他们还已经成为了一起集体诉讼案件的被告,这为事件增添了更多变数。在过去几个月里,我一直在搜集和整理与此事件相关的信息,现在让我来谈谈事件已知的情况,正在流传的数据集,以及仍然存在的一些谜团。

让我们先从简单的部分开始——National Public Data(NPD)是谁?他们是所谓的“数据聚合器”,即基于他们掌握的大量个人信息提供服务的公司。从他们网站的首页:

犯罪记录、背景调查等。我们的服务目前被调查人员、背景调查网站、数据经销商、移动应用程序、应用程序等使用。

有许多合法运营的数据聚合器……其中许多最终被列入Have I Been Pwned (HIBP) 中。例如Master Deeds、Exactis和Adapt,仅举几例。4 月,我们开始看到有关国家公共数据和数十亿条记录被泄露的新闻,其中最早的一条来自 Dark Web Intelligence 账户:

美国30 亿人国家公共数据泄露事件内幕

当时,此次泄密事件被归咎于“USDOD”,这个名字值得记住,因为您将在整篇文章中看到它。嵌入的图像是 29 亿这个数字的首次提及,我们随后在各大媒体上看到,它就在那里,旁边是 350 万美元的数据索要请求。显然,这里面有经济动机,所以在我们进一步深入研究这个故事时请记住这一点。该图像还提到了 200GB 的压缩数据,解压后会扩展到 4TB,但这并不是最初引起我注意的。相反,嵌入图像中一些非常明显的问题不合情理:如果这些数据是“美国、加拿大和英国的全部人口”(总共约 4.5 亿人),那么我们一直看到的 29 亿这个数字是多少?因为这与“近 30 亿人”的社会安全号码被泄露的报道不符。此外,SSN 是一种相当美国化的结构,加拿大有 SIN(社会保险号),英国有 NI(国民保险号),这可能是最接近的。这是您将在这篇文章中阅读到的不变主题,只是有些……不对劲。但夸张是此类事件的一个常见主题,所以让我们谨慎对待这些标题,看看数据告诉我们什么。

6 月初,我首次收到了据称来自 NPD 的数据。我收到的资料与 vx-underground 大约在同一时间报道的内容相符(请注意他们提到 4 月 8 日,这也与之前的推文一致):

美国30 亿人国家公共数据泄露事件内幕他们在消息中提到收到的未压缩数据总计为 277.1GB,这与我收到的 2 个文件的总和一致:

美国30 亿人国家公共数据泄露事件内幕他们还提到数据包含名字和姓氏、地址和 SSN,所有这些都出现在上面的第一个文件中(以及其他字段):

美国30 亿人国家公共数据泄露事件内幕

这些第一行也与早先推文中包含的帖子 Dark Web Intelligence完全一致。如果您看到它并想“这是在多行中重复的相同 SSN,但名称不同”,这些记录都是同一个人,只是名称的顺序不同,地址也不同(都在同一个城市)。换句话说,这 6 行只代表一个人,这让我想到了行与不同数字的比例。好奇的是,我采集了 1 亿个样本,发现只有 31% 的行具有唯一的 SSN,因此推断出 29 亿更像是 8.99 亿。当您阅读标题数字时,这一点始终要注意:“29 亿”并不一定意味着 29 亿人,它通常意味着数据行。说到这,这两个文件分别包含 1,698,302,004 和 997,379,506 行,总计 26.96 亿。这就是头条数字的由来吗?也许,它很接近,而且也和 Bleeping Computer 几天前报道的完全一样。

故事发展到这一步,毫无疑问,数据是真实的。摘自上述 Bleeping Computer 的故事:

许多人向我们证实,其中包含他们及其家人的合法信息,包括已故者

在 vx-underground 的推文中,他们提到:

它还使我们能够找到他们的父母和最近的兄弟姐妹。我们能够识别某人的父母、已故亲属、叔叔、阿姨和堂兄弟。此外,我们可以确认该数据库还包含已故个人的信息。一些找到的个人已经去世近 20 年。

同一条推文中的一句简短的离题评论:

数据库不包含使用数据退出服务的个人的信息。并非所有使用某种数据退出服务的人都存在。

这正是合法运营的数据聚合服务所期望的。这只是一个次要问题,但它确实支持了数据来自 NPD 的说法。

重要提示:到目前为止讨论的数据都不包含电子邮件地址。这并不一定会降低对相关人员的影响力,但这是一个重要的观点,稍后我将回顾它与 HIBP 的关系。

所以,这些数据早在 3 个月前就已在有限的流通中出现。它包含大量个人信息(即使不是“29 亿人”),更糟糕的是,它上周被公开发布:

美国30 亿人国家公共数据泄露事件内幕

谁也不知道“Fenice”是谁,他们扮演什么角色,但显然早在上周之前,多个团体就已获得这些数据。我查看了他们发布的内容,发现与我 2 个月前收到的内容一致,这很糟糕。但另一方面,至少它允许旨在保护数据泄露受害者的服务向他们发出通知:

美国30 亿人国家公共数据泄露事件内幕

不可避免地,这种性质的违规行为会导致法律诉讼,正如我在开篇提到的那样,诉讼在几周前就开始了。看起来数据保护服务机构的举报就足以让某人对 NPD 提起诉讼:

原告克里斯托弗·霍夫曼 (Christopher Hofmann) 是一名加州居民,他表示,7 月 24 日他收到了身份盗窃保护服务提供商的通知,告知他自己的数据遭到入侵并在暗网上泄露。

到目前为止,几乎所有事情都已排好,但有一件事:4TB 的数据在哪里?这就是事情变得混乱的地方,因为我们现在进入了“部分”数据的领域。例如,上个月的这个语料库被发布到一个流行的黑客论坛上:

美国30 亿人国家公共数据泄露事件内幕
美国30 亿人国家公共数据泄露事件内幕

那是 80GB,虽然尚不清楚这是压缩还是解压后的大小,但无论如何,它仍然远远低于所谓的 4TB。不过,请注意嵌入图像中的文件名 - “people_data-935660398-959524741.csv” - 因为它稍后会再次出现。

本月初,据称来自 NPD 的 27 个部分的数据被发布到 Telegram,此图代表前 10 个部分,每个部分 4GB:

美国30 亿人国家公共数据泄露事件内幕

压缩的存档文件总计 104GB,其中包含一些看似相当随机的数据集合:

美国30 亿人国家公共数据泄露事件内幕

这些文件中有许多本身就是档案,而其中许多还包含更多档案。我仔细检查并递归提取了所有内容,结果得到了总计 642GB 的未压缩数据,分布在 1000 多个文件中。如果这是“部分”,那么上个月的 80GB“部分”是怎么回事呢?谁知道呢,但上述文件中有 1.34 亿个唯一的电子邮件地址。

先来盘点一下我们目前的情况,我们得到了第一组 SSN 数据,它是合法的,不包含电子邮件地址,但据称它只是整个 NPD 语料库的一小部分。然后我们得到了第二组数据,它更大,包含数千万个电子邮件地址,但外观相当随机。我试图回答的迫切问题是“它是合法的吗?”

验证数据聚合器泄露事件的问题在于,没有人愿意(明知故犯地)向他们提供数据,所以我无法像往常一样询问受影响的 HIBP 用户是否曾经使用过 NPD。通常,我也无法只查看数据聚合器泄露事件,并找到将其与相关公司联系起来的线索,因为数据中提到了他们的服务。部分原因是这些数据太普通了。以之前的 SSN 数据截图为例;有多少不同的地方有你的名字和姓氏、地址、SSN 等?当只有通用数据可供参考时,要确定来源是极其困难的。

上图中不同文件类型和命名约定的拼凑让我担心。这些真的都是来自 NPD 的吗?通常,您会看到某种连续性,例如,一堆具有相似名称的 .json 文件或一大堆 .sql 文件,每个文件代表一个转储表。“people_data-935660398-959524741.csv”的存在将这个语料库与之前推文中的语料库联系在一起,但还有像“Accuitty_10_1_2022.zip”这样的东西;这是否指的是我在 11 月写的Acuity(单个“c”,单个“t”) ?HIBP 没有根据我去年加载的 Acuity 返回该文件夹中电子邮件地址的命中结果,所以不,这是一个不同的语料库。但仅该档案就拥有超过 250GB 的数据,其中包含近 1 亿个唯一的电子邮件地址,因此它构成了整个数据集合的重要组成部分。

3,608,086KB 的“criminal_export.csv.zip”文件引起了我的注意,部分原因是犯罪记录检查是 NPD 服务的关键组成部分,但也因为就在几个月前,我们看到了另一起包含 7000 万行美国犯罪数据库的泄露事件。看看这次泄露事件归咎于谁?美国国防部,NPD 泄露事件中到处都是这个组织的名字。我确实收到了这些数据,但把它归档了,没有把它加载到 HIBP 中,因为里面没有电子邮件地址。我想知道那则报道中的数据是否与上图中的文件一致?让我们检查一下档案:

美国30 亿人国家公共数据泄露事件内幕

文件名不同,但嘿,这是一个 3,608,086KB 的文件!鉴于 NPD 泄密事件最初发生在 4 月,而犯罪数据在 5 月登上新闻,后者完全有可能是从前者获得的,但我在任何地方都找不到这种关联的任何提及。(旁注:这是一个完美的例子,说明了为什么我在处理后将泄密事件保留在离线存储中,因为它们在评估新泄密事件的来源和合法性时通常很有帮助)。

继续寻找奇怪之处,我决定看看自己是否在那里。现在很多时候,我加载了一个漏洞,启动了通知进程,离开电脑,然后收到一封我自己发来的电子邮件,说我被入侵了🤦‍♂️我不断对自己所处的地方感到惊讶,包括这个:

美国30 亿人国家公共数据泄露事件内幕

该死!这是我的电子邮件地址,但显然,其他数据都不是我的。不是我的名字,不是我的地址,而且这些模糊的数字对我来说肯定不熟悉(我不相信它们是 SSN 或其他敏感标识符,但因为我不能确定,所以我对它们进行了模糊处理)。我怀疑其中一个数字是序列化的出生日期,但在包含我的电子邮件地址的总共 28 行中,两个唯一的出生日期将“我”的出生日期写为 1936 年或 1967 年。两者都与事实相差甚远。

粗略地查看一下这个语料库中的其他数据,就会发现各种各样的个人属性。一个文件包含身高、体重、眼睛颜色和种族等信息。上图中的“uk.txt”文件仅包含一个带有公开信息的商业目录。我本可以深入挖掘,但现在已经没有意义了。这里显然存在一定程度的无效数据,我们肯定看到过一些数据单独出现,作为一个独立的违规行为,并且有许多不同版本的“部分”NPD 数据(尽管这里讨论的 27 个部分档案是我见过的最大的,也是其他人最经常向我推荐的)。我搜索得越多,发现的与 NPD 相关的零碎信息就越多:

美国30 亿人国家公共数据泄露事件内幕

如果让我猜测的话,我们看到的情况可能有两种解释:

这一事件因最初泄露 SSN 的合法性而受到媒体广泛报道,而随后的部分泄露也借着泄密恐慌而发生。NPD 收集了大量公开流通的数据来丰富其产品,这些数据与最初发布的 SSN 数据一起被搁置 不过,这两种说法都纯属推测,唯一知道真相的各方是传播数据的匿名威胁行为者和现在正在集体诉讼中被起诉的数据聚合器,所以,是的,我们短期内不会看到任何可靠的澄清。相反,我们只剩下 1.34 亿个电子邮件地址在公开流通,没有明确的来源或责任。好几天来,我都不知道该如何处理这些数据,不确定是否应该加载它,如果加载,是否应该写下来。最后,我决定它应该作为未经证实的违规行为在 HIBP 中占有一席之地,根据开篇句,这篇博文是我能够正确解释我发现的细微差别的唯一方式。这样,受影响的人就会知道他们的数据是否在这个语料库中流传,如果他们发现这些信息无法采取行动,那么他们可以做如果我没有加载它他们会做的事情——什么都不做。

最后,我想再次强调我之前提到过的一点:社会安全号码文件中没有电子邮件地址。如果您发现自己通过 HIBP 遭遇了数据泄露,那么没有证据表明您的 SSN 被泄露,如果您和我的情况一样,您记录旁边的数据可能甚至不正确。不,我没有机制将除电子邮件地址之外的其他属性加载到 HIBP 中,也没有将人们指向源数据的方向(你们中的一些人可能在几天前就收到过关于为什么不这样做的提醒)。而且我绝对没有能力成为您的个人查找服务,手动搜索数据并为您提取个人记录!因此,请仅将此视为信息,一个不需要任何进一步行动的有趣故事。


原文始发于微信公众号(独眼情报):美国30 亿人国家公共数据泄露事件内幕

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年8月17日00:21:55
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   美国30 亿人国家公共数据泄露事件内幕https://cn-sec.com/archives/3072673.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息