GitHub 存在使用虚假“星星”的问题,该问题被用来人为地提高诈骗和恶意软件分发存储库的知名度,从而帮助它们接触更多毫无戒心的用户。
Star类似于社交媒体网站上的“赞”按钮,可让 GitHub 用户收藏某个存储库。GitHub 使用Star作为全球排名系统的一部分,并向您显示它认为您可能喜欢的相关内容。
“您可以为存储库和主题加注星标,以在 GitHub 上发现类似的项目。当您为存储库或主题加注星标时,GitHub 可能会在您的个人仪表板上推荐相关内容,” GitHub解释道。
该问题之前已被记录在案,例如去年夏天,Check Point 发现了一个名为“ Stargazers Ghost Network ”的恶意软件传送服务,该服务使用由虚假项目组成的广泛虚假用户网络来推送窃取信息的恶意软件。
非恶意项目也会使用虚假星星来提升知名度、扩大影响力,并吸引合法用户的关注和真Star以及采用。
Socket、卡内基梅隆大学和北卡罗来纳州立大学的研究人员进行的一项新研究让我们更好地了解了问题的规模,发现 GitHub 上有 450 万个星星疑似是假的。
GitHub 加星标服务列表
商家 | 每颗星价格 | 最低金额 | 交货时间 |
Baddhi | $0.10 | 100 | 小于一周 |
BuyGitHub | $0.12 | 50 | 几个小时 |
FollowDeh | $0.12 | 20 | 立刻 |
subme.lt | $0.67 | 100 | 几个小时 |
Box ID | 0.41 | 100 | 几个小时 |
R for Rank | $0.38 | 100 | NA |
Twidium | $1.62 | 50 | 7∼30 天 |
寻找假Star
研究人员开发并使用了一种名为“StarScout”的工具来分析来自“GHArchive”的 20TB 数据,以查找虚假的Star。
GHArchive 包含 2019 年 7 月至 2024 年 10 月期间超过 60 亿个 GitHub 事件的元数据,其中包括 3.1 亿个存储库上的 6050 万个用户操作和 6.1 亿个星标。
StarScout 可检测在 GitHub 上表现出最少活动的用户,例如关注单个存储库、具有机器人或临时帐户活动模式,以及协同行动的帐户组,例如在短时间内关注相同的存储库。
他们的方法基于 CopyCatch,一种旨在检测社交网络中的欺诈模式的算法。
450 万颗Star疑似假货
通过应用低活跃度和锁步签名算法对数据进行处理,识别了各个存储库中的可疑星星,研究团队发现,22,915 个存储库中的 1,320,000 个账户给出了 4,530,000 个疑似虚假星星。
为了增强对这些星星真实性质的信心,研究人员通过仅考虑在一个月内星星活动出现显着异常高峰的存储库,以及假星星数量占星星总数的 10% 以上的存储库,过滤掉了潜在的误报。
这样一来,结果就减少到 278,000 个账户向 15,835 个存储库给出的 3,100,000 颗假星星。
识别聚类行为等虚假模式
其中,截至 2024 年 10 月,大约 91% 的存储库和 62% 的疑似虚假账户已被删除,这证明了 StarScout 工具的准确性。
研究还显示,2024 年虚假星星活动激增,2024 年 7 月拥有超过 50 个星星的存储库中约有 15.8% 参与了这些恶意活动。
研究人员于 2024 年 7 月报告了 StarScout 识别为不真实的存储库和帐户,GitHub 已将其全部删除。不过,他们仍在评估和报告 2024 年 11 月发现的其他集群。
虚假星星对 GitHub 及其用户的影响是多方面的,但总的来说,这个问题会削弱人们对该平台及其托管的各种软件项目的信任。
用户应该查看过去的星级,评估存储库的活动和质量,阅读文档,检查内容和贡献,并在可能的情况下检查代码。
欺骗性的 GitHub 存储库随处可见,该平台甚至被国家支持的行动所利用,因此从该平台下载软件时请务必小心。
研究论文地址
https://arxiv.org/pdf/2412.13459
原文始发于微信公众号(独眼情报):GitHub 项目上有超过 310 万个虚假“Star”用于提高排名、诈骗和恶意软件传播
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论