利用语言分析揭露黑客行动背后的真相
过去几十年,黑客行动主义(hacktivism)大多表现为网站篡改和分布式拒绝服务(DDoS)攻击等小规模活动,虽然能登上头条,但持久影响有限。然而,近年来,这些活动的性质发生了显著变化。一些看似国家支持但伪装成黑客行动主义者的组织,现在正在进行大规模的网络和影响力行动。这些行为者经常使用各种组织名称和基层外表来保持匿名性,减少国际反弹。这些复杂的攻击成为政治和社会影响的强大工具,提供了合理否认和合法性的假象,从而逃避直接的政府归因。
本研究探索这类行动日益普及和广泛重复采用的特点是否可能成为它们的薄弱环节。我们引入了一种利用基于语言的机器学习模型和语言学分析来归因黑客行动主义组织的新方法。我们的研究分析了数十个黑客行动主义组织发布的数千条公开信息,将传统的网络威胁情报方法与现代机器学习技术相结合。这种综合方法旨在揭示这些组织讨论的关键主题,了解他们随时间变化的动机,将部分组织联系起来,并改进我们对黑客行动主义归因的方式。
引言
黑客行动主义是黑客技术与行动主义的结合,自诞生以来已经发生了巨大的变化。起源于20世纪80年代的"死牛崇拜"(Cult of the Dead Cow)等组织开创了黑客行动主义的概念,这一现象已从边缘亚文化发展成为全球网络政治中的重要力量。早期的黑客行动主义者针对具有象征意义的机构和网络,旨在引起人们对各种社会和政治问题的关注。20世纪90年代和21世纪初,出现了更有组织性的团体,如匿名者(Anonymous),其从2008年针对山达基教的攻击到2010年的PayPal抗议活动,展示了数字行动主义的潜力。如今,黑客行动主义不仅仅是关于篡改网站或DDoS攻击—它已成为国家和非国家行为者武器库中的复杂工具,影响着全球地缘政治格局。
近年来黑客行动主义最重要的发展之一是国家行为者的参与
。各国政府已认识到黑客行动主义方法的战略价值,为自己的目的采用和调整这些方法。国家雇用网络操作员进行模仿草根黑客行动主义的行动。这些活动通常旨在播下不和谐、影响公众舆论或削弱政治对手,同时保持合理否认的可能性。通过将其行动伪装成独立的黑客行动主义,政府可以在不被直接归因的情况下实现其目标,使国际回应和责任追究变得复杂。
国家支持的实体经常策划行动,使其看起来像是独立黑客行动主义者的工作,从而搅浑归因的水域。他们经常操控多个,有时甚至是数十个看似独立行动的组织。这一策略不仅用于误导目标,还通过将真正的行动主义运动与国家议程联系起来而抹黑它们。这种欺骗性策略使全球网络格局复杂化,使人难以区分真正的黑客行动主义行动和国家支持的伪装。
近年来,自从黑客行动主义格局发生这一转变以来,Check Point Research一直跟踪数十个黑客行动主义组织——有些由具有共同意识形态或利益的黑客组成,另一些则由伪装成黑客行动主义者的国家行为者操控。我们的调查已发表多篇文章,详述了我们认为由这些国家行为者进行的重大行动。在某些情况下,我们已成功将不同的黑客行动主义组织联系到单一操作者,刺破了他们的匿名面纱。我们的研究采用了传统的威胁情报和调查方法,如二进制分析、代码相似性和入侵分析的钻石模型。例如,我们展示了一个黑客行动主义组织如何使用与另一个组织相同的独特工具和方法,而后者数年前针对不同实体,这表明它们是同一个组织。然而,此后,国家黑客行动主义组织改进了他们的技术,更加努力地掩盖自己的踪迹并独立行动。
跟踪这些组织为我们提供了关于他们的动机、攻击策略和常见目标的宝贵见解。我们的研究人员已经发展出关于这些组织背后操作者的各种理论和假设,怀疑许多由不同国家的情报机构直接或间接运营。最近的重大地缘政治事件,如俄罗斯入侵乌克兰和以色列与哈马斯之间的冲突,突显了本来可能不被注意的变化。对这些事件的回应,多年不活跃的黑客组织突然重新出现,往往有了新的关注点。独立组织开始回应类似的信息,有时甚至相互引用。这些冲突为新组织和网络角色以惊人的速度出现创造了肥沃的土壤。
黑客行动主义行动频率的增加和新组织的兴起为网络威胁格局增加了复杂性。这些组织的快速形成和解散,加上他们能够迅速适应地缘政治变化的能力,使威胁研究人员难以手动跟踪它们。认识到依赖直觉和感觉并不是威胁情报的可靠方法,我们决定探索更可靠、更稳健、更一致的方法。
方法论
为了解决我们的研究问题并应对我们提出的复杂性,我们采用了结合主题建模和文体分析的方法。这一决定源于需要更好的方法来分析黑客行动主义组织撰写的大量文本数据。通过整合基于语言的机器学习模型和语言学分析,我们旨在系统地揭示黑客行动主义活动背后的动机,识别不同组织之间的联系,并增强对这些行动归因到特定行为者的能力。
主题建模帮助我们理解这些组织随时间讨论的关键主题。它使我们能够回答以下问题:这些黑客行动主义组织的主要目标和目标是什么?它们的关注领域如何随地缘政治事件而变化?通过分析组织社交媒体信息的内容,我们可以识别主题集群并跟踪其演变,提供对这些行为者战略目标的见解。
另一方面,文体分析关注不同组织的独特写作风格。通过研究词汇选择、句子结构和其他语言模式等特征,我们可以回答以下问题:我们能否基于他们的写作风格将不同的黑客行动主义组织联系起来?是否存在具有相似文本指纹的组织,可能表明共同作者身份或合作?这种分析帮助我们建立不同组织之间的联系网络,提供对它们关系的更深入理解,并可能揭示这些网络角色背后的操作者。
数据收集
为了进行这项研究,我们收集了据信由国家行为者操控的黑客行动主义组织的社交媒体账户和信息数据。主要数据来源是Twitter和Telegram,因为这些平台常被黑客行动主义组织用来传播其信息。收集过程包括几个步骤:
-
目标账户识别:虽然有数百个与黑客行动主义网络角色相关的社交媒体账户,但这些账户中许多要么不活跃,要么不受国家行为者支持。我们选择了35个活跃且可能受国家支持的黑客行动主义账户。这些账户的选择基于它们的活动、信息性质以及之前将它们与国家行为者联系起来的报告。它们代表了多样化的目标和目的,使用英语、俄语、乌克兰语、波斯语、希伯来语、印地语等语言发布信息。一些账户同时活跃在Telegram和Twitter上,经常管理多个账户,包括备份账户。对于每个组织,我们记录了所有直接相关的账户。
-
数据提取:为收集X上的所有信息,我们使用官方API检索这些账户的推文和回复。虽然转发也可能表明这些账户的兴趣主题,但由于与原始推文和回复相比可靠性较低,我们选择不包括它们。对于Telegram,我们使用Telegram桌面应用程序导出这些黑客行动主义组织运营的频道发布的所有信息。总共,我们从这些账户收集了约20,000条推文和信息。
-
数据清洗:从社交媒体平台提取的原始数据包含URL、标签、表情符号和特殊字符等多种元素。对于主题建模算法,我们通过删除这些元素来清洗数据,重点关注文本内容。此外,非英语信息被翻译成英语以保持一致性。然而,对于文体分析,我们保留了这些元素。由于我们的文体模型支持多种语言,我们保留了原始语言,没有翻译这些信息。
-
数据存储:清洗过的数据以结构化格式存储,使其适合进一步分析。每条信息都标记了元数据,包括发布日期、原始账户和原始语言代码。
在所有数据都结构化并准备好进行分析后,我们转向了分析工作。
主题建模
主题建模是一种用于在大量文本数据中识别主题的机器学习技术。在这项研究中,我们采用了BERTopic,一个用于主题建模的模块化和灵活框架。该过程包括以下步骤:
-
文档嵌入:第一步是将我们的文本数据转换为数值表示,可被机器学习算法处理。使用BERTopic,我们使用针对语义相似性任务优化的句子转换器模型。这些模型擅长创建能捕捉文本语义细微差别的文档嵌入,使它们成为我们聚类任务的理想选择。简单来说,我们将文本转换为反映其含义的数字,使我们能够找到模式和相似性。
-
降维:高维数据对聚类算法可能构成挑战,因此我们使用UMAP(统一流形近似和投影)来降低嵌入的维度,同时保留其基本结构。这一步确保聚类过程能有效地对语义相似信息进行分组,同时维持数据内部的局部和全局关系。本质上,我们在保持其重要关系的同时简化数据,使其更易于分析。
-
文档聚类:利用降维后的嵌入,我们应用了凝聚聚类和HDBSCAN(基于密度的分层空间聚类分析)来识别数据中的集群。HDBSCAN特别适合我们的需求,因为它可以找到不同形状和密度的集群,同时识别异常值。这一特性通过减少噪声来帮助提高生成的主题表示的质量。换句话说,我们将相似的信息分组在一起,同时过滤掉不相关的内容。
-
词袋表示:为创建有意义的主题表示,我们将每个集群内的所有文档组合成单个文档,并计算每个词的频率。这一过程,称为词袋表示,通过不对集群结构做出假设,帮助识别每个集群内最显著的词。简单来说,我们关注每个组内最常见的词,以了解每个主题的内容。
-
主题表示:随后,我们使用传统TF-IDF(词频-逆文档频率)方法的修改版本,使其在集群级别而非文档级别工作。这一修改,称为基于类的TF-IDF(c-TF-IDF),通过比较词在集群内的频率与其在所有集群中的频率,计算词在每个词袋中的重要性。该方法使我们能够提取每个主题最具代表性的词,提供清晰且有意义的主题描述。本质上,我们通过比较词在组内外的重要性来确定定义每个主题的关键词。
-
微调主题表示:为进一步精炼主题表示,我们分割、合并和删除了一些主题。这一步确保最终的主题集既全面又精确。
-
使用LLM分配主题名称:为了给主题恰当命名,我们使用了大型语言模型(LLM),特别是GPT。我们向模型提供每个主题的关键词列表和代表性文档,并要求它为主题生成简洁且描述性的标签。这一步帮助我们一目了然地理解每个主题。
-
主题可视化:我们可视化了不同黑客行动主义账户之间的主题分布和每个主题在账户内的流行程度。这涉及创建展示哪些账户在讨论每个主题以及每个账户对不同主题投入的信息比例的图表。以这种方式可视化主题有助于我们识别哪些组织关注特定主题以及它们的兴趣如何一致或分歧。例如,我们可以看到多个组织是否同时讨论重大地缘政治事件。这些可视化还使我们能够跟踪关注点随时间的变化,提供黑客行动主义策略如何应对全球事件演变的见解。
通过主题建模,我们可以检查大量文本数据中的主题和主旨——不同角色撰写的信息。它使我们能够了解这些黑客行动主义组织讨论的关键主题和趋势,跟踪其关注领域随时间的变化,并理解其战略目标。例如,我们可以识别某些组织如何对地缘政治事件作出反应,如在重大冲突后关于网络攻击的信息增加。此外,主题建模可以揭示讨论类似主题的组织之间意想不到的联系,表明潜在的协调或共享动机。由于这些组织很可能是由情报机构创建的,理解每个组织讨论的主题可以帮助我们了解这些账户服务的任务或目标以及它们被创建的目的。随时间可视化主题使我们能够发现操控这些账户的实体对焦点或兴趣的转变。将这些见解结合起来,我们可以根据某些组织的兴趣及其兴趣变化更好地了解谁可能是这些组织的幕后黑手。
文体测量
文体测量是对语言风格的研究,常用于作者身份归因。它利用个人独特的写作方式,类似于语言指纹,来识别作者或建立文本之间的联系。在这项研究中,我们利用文体测量分析来比较不同黑客行动主义组织的写作风格。这种方法为我们提供了这些组织之间的潜在关系和共同点。该过程包括以下步骤:
-
特征提取:我们使用StyloMetrix框架从收集的信息中提取近200个特征。StyloMetrix是一个将文本表示为向量的工具。向量中的每个指标量化了文本中的一个语言特征。这些特征包括:
-
词汇特征:涉及词汇选择、标点符号、词汇丰富度和特定词或短语的频率。例如,某些词出现的频率。 -
句法特征:包括句子结构、标点使用和句子长度。我们研究了句子以大写字母开头的频率、平均句子长度和各种标点符号的使用。 -
风格元素:包括表情符号、标签和特殊字符的使用。例如,某些组织可能一贯使用某些表情符号或有特定的信息格式化方式。 -
功能词:这些是常见词,如介词、连词和代词,通常下意识地反映作者的风格。 -
聚合:提取的特征被聚合,为每个黑客行动主义账户创建一个独特的风格指纹。这涉及总结每个账户的所有信息中的特征值。通过这样做,我们为每个组织开发了一个包含其独特写作风格的资料。
-
比较:我们使用相似性度量来比较不同账户的风格指纹。这一分析帮助我们识别具有相似写作风格的账户,表明它们之间的潜在联系。例如,如果两个组织经常使用类似的短语、标点符号或甚至独特的表情符号,这可能表明有共同的作者。
-
可视化:文体测量分析的结果使用网络图进行可视化。这些图突显了基于写作风格的不同黑客行动主义组织之间的联系,强调潜在的共同作者或协调努力。例如,图中的密集集群可能表明单一实体操作多个账户,而孤立的节点则表明独立的操作者。
文体测量可以揭示远超单纯作者身份的大量信息。例如:
-
归因:通过比较各组织的写作风格,我们可以将特定信息归因于已知的黑客行动主义实体,甚至发现之前未知的关联。通常,如上所述,会创建新组织。对新组织信息的文体测量分析可以帮助我们了解它是否是之前已知组织的重新包装。
-
写作风格的演变:分析单个账户的写作风格如何随时间演变可以提供关于组织成员变化或操作策略的线索。它可以帮助我们观察一个由单一作者操作的组织是否开始有额外的作者,甚至发现他们是否在轮班。
-
检测欺骗:如果一个账户突然改变其写作风格,可能表明该账户已被不同实体接管,或原始作者试图掩饰其身份。
通过识别不同信息和账户之间的风格一致性,我们可以:
-
连接表面上无关的黑客行动主义组织:发现通过传统分析不会立即显现的联系。 -
提高归因准确性:提供额外证据支持识别某些组织背后的国家支持行为者。 -
揭示协调行动:检测表明更大、有组织的努力而非孤立事件的模式。
通过在我们的方法论中使用文体测量分析,我们能够更深入地理解黑客行动主义组织的关系和行为。这种方法提供了一层补充传统方法的分析,为这些组织提供了更加细致的视角。
结果
主题建模分析
在我们的分析中,我们利用BERTopic框架来识别和分类各种黑客行动主义组织讨论的主要主题。在对信息进行聚类后,我们使用基于类的TF-IDF(c-TF-IDF)方法提取每个聚类最具代表性的词。我们使用GPT为这些主题分配有意义的名称,根据每个聚类的顶级关键词和代表性文档提供简洁且描述性的标签。一些初始主题过于具体或太宽泛,需要精炼。例如,与泄露乌克兰军队文件相关的较小主题被合并到更广泛的"泄露乌克兰组织文件"主题中,而"欧洲网络攻击"的一般主题被分割成更具体的主题,如"针对西班牙的网络攻击"和"针对英国的网络攻击"。这一迭代过程确保了最终的主题集既全面又精确。最终,我们得到了一组代表这些组织主要兴趣的主题。
有多个主题讨论针对不同国家如以色列、乌克兰、俄罗斯、伊朗、印度、西班牙、美国等组织的网络攻击。其他则专注于针对黎巴嫩真主党和也门胡塞武装等武装组织的网络攻击。一些主题与泄露乌克兰、以色列、俄罗斯和伊朗等国家的敏感信息有关。许多主题直接与俄罗斯入侵乌克兰和以色列-哈马斯冲突等重大地缘政治事件有关。这凸显了黑客行动主义组织在网络战和宣传中的作用。有时,不同组织讨论的类似主题表明可能存在协调或共享目标。
鉴于这些组织可能由情报机构精心策划,分析他们讨论的主题使我们深入了解这些账户旨在服务的使命或目标。通过随时间可视化这些主题的演变,我们检测到管理这些账户的实体的焦点或兴趣变化。这种综合分析为我们提供了关于谁可能在这些组织背后的更清晰理解,基于他们变化的兴趣和目标。我们观察到组织如何对某些地缘政治事件作出反应及其他人的响应时间。例如,与俄罗斯相关的黑客行动主义组织与俄罗斯入侵乌克兰同时发起攻击。乌克兰相关的黑客行动主义组织花了几个月的时间才开始以自己的攻击一致地进行报复。
文体测量分析
文体测量分析用于比较不同黑客行动主义组织的写作风格并揭示潜在联系。通过从收集的信息中提取近200个特征,包括词汇、句法和风格元素,我们为每个账户创建了独特的风格指纹。这种分析不仅识别作者身份,还提供对这些组织的组织结构和操作策略的更深入见解。
使用相似性度量比较这些风格指纹,我们发现了几个显著的联系。某些组织展示了高度相似的写作风格,暗示它们可能由同一个人或团队操作。例如,俄罗斯重生网军、Solntsepek和XakNet显示了显著的风格重叠。这一发现支持谷歌Mandiant的报告,指出这些组织是APT44使用的网络角色,为其协调行动提供了进一步证据。此外,Mandiant报告中未提及的两个组织——JustEvil和NoName057——也显示与这一活动集群的一些相似性。我们还发现了其他集群之间的联系,包括那些针对以色列和阿尔巴尼亚组织的集群,以及另一个关注伊朗的集群。
单个账户内写作风格的突然变化表明可能存在作者身份变化。例如,乌克兰IT军在2022年左右的风格发生了明显变化,与其信息焦点的变化相一致。最初,该账户包含为埃及足球队加油的阿拉伯语信息,但在俄罗斯入侵乌克兰后,内容戏剧性地转向关注针对俄罗斯的网络攻击。这一鲜明变化表明该账户被购买、重新利用或被该组织接管。其他例子表明,有些组织有多人撰写信息,而其他组织只有一个作者,始终以类似方式写作。
意义
不同组织之间风格重叠的识别表明协调努力和共享目标,可能在情报机构的单一指导下。这增强了我们归因攻击和理解其背后更广泛策略的能力。
此外,检测账户内写作风格的突然转变可能表明组织控制的变化或战略方向的重定向。这对威胁情报至关重要,因为它提供了黑客行动主义活动重大变化的早期指标。
通过将这些见解与主题建模的结果结合,我们对黑客行动主义组织的动机、策略和相互联系有了更好的理解。这种整体视角对理解和改进黑客行动主义组织操作的归因至关重要。
讨论
结果解释
我们的主题建模和文体测量分析发现为黑客行动主义组织的活动和演变提供了见解。通过识别这些组织讨论的关键主题,我们更好地了解了它们的主要目标,包括各种国家和组织。主题经常围绕重大地缘政治事件,如俄罗斯入侵乌克兰和以色列-哈马斯冲突,凸显了黑客行动主义组织在网络战和宣传中的作用。主题随时间的演变揭示了这些组织如何调整其信息以响应全球事件,反映其战略目标。
文体测量分析显示了黑客行动主义组织的相互关联性,某些组织展示了表明共同作者身份或协调的相似写作风格。这在针对特定地区如乌克兰、以色列和伊朗的组织集群中尤为明显。此外,个别账户内写作风格的变化表明账户所有权的变化,可能表明战略方向的转变。
了解黑客行动主义组织的主题和写作风格通过组织关于其动机和策略的知识改进了威胁情报。这对创建有效的对策和准确地将网络攻击归因于特定组织或国家支持实体至关重要。持续监测和分析黑客行动主义通信可以提供新兴威胁的早期警告,使得主动防御措施成为可能。
局限性
尽管获得了宝贵的见解,但这项研究仍有几个局限性。数据收集带来了重大挑战,因为黑客组织经常更改其账户(社交媒体平台经常禁止其旧账户),从而限制了数据的可用性。此外,通常很难判断一个账户是合法的,还是某种粉丝页面或黑客组织的模仿者。此外,对社交媒体消息的依赖意味着分析可能无法捕捉到黑客活动的全部范围,其中可能包括在其网站(通常在暗网上)、论坛上以及有时直接向记者发送的消息。
本研究中使用的机器学习模型虽然功能强大,但也有其固有的局限性。主题建模依赖于输入数据的质量和全面性,小主题或模糊主题可能会被忽略。文体分析虽然可以有效地识别写作风格的相似性,但如果不同的作者有相似的语言习惯或使用模型无法正确支持的语言,则可能会产生假阳性。此外,只要付出足够的努力,就有可能模仿某些群体的写作风格,从而误导文体模型。
未来研究方向
为了巩固研究成果,未来的研究应扩大分析范围,纳入更多黑客行动主义账户。随着众多团体迅速涌现,建立自动化流程以进行持续监控和分析至关重要。这种自动化将提供实时洞察,并更全面地了解黑客行动主义活动。
此外,研究人员还应探索其他数据类型,例如视频和 PDF 的元数据,以获得进一步的见解。分析不同帐户中独特的主题标签、重复出现的拼写错误和提及也可以提供有价值的信息。将视觉风格学概念应用于这些群体发布的视频和图形图像可以揭示更多的模式和联系。
结论
我们的研究意义在于它以创新的方式分析了黑客行动主义的通信。通过结合主题建模和文体分析,我们提供了对这些团体的活动及其演变的全面了解。然而,必须注意的是,这种方法并非万无一失。网络威胁形势在不断发展,我们的方法也必须不断发展。我们需要不断尝试、创新和合作,以领先于这些威胁。
国家支持的活动与传统的草根黑客行动主义之间的界限模糊,凸显了对适应性强、创新性威胁情报方法的需求。我们努力理解这些复杂动态,是因为认识到我们并没有全部答案,这一事实促使我们一开始就寻求理解。
原文地址: https://research.checkpoint.com/2025/modern-approach-to-attributing-hacktivist-groups/
原文始发于微信公众号(独眼情报):追踪黑客组织的现代方法【有点东西】【深度好文】
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论