介 绍 ✦
Introduction
在不断发展的网络安全领域,日志(即从网络设备、端点和应用程序等各种来源收集的信息)在识别和应对威胁方面发挥着至关重要的作用。通过分析这些数据,组织可以检测异常、查明恶意活动并在潜在的网络攻击造成重大损害之前缓解它们。然而,日志的庞大数量和复杂性往往使其难以有效分析。
这就是机器学习 (ML) 发挥作用的地方。ML 是人工智能 (AI) 的一个子集,具有处理和分析大型数据集的能力,为增强威胁检测能力提供了强大的解决方案。ML 可以更快、更准确地识别网络威胁,帮助组织领先于日益复杂的攻击者。
在卡巴斯基,我们在我们的解决方案中使用 ML 算法已有近 20 年,并且我们为 AI/ML 的开发和使用制定了道德原则。我们利用各种 ML 模型和方法,这些模型和方法是自动检测威胁、识别异常和提高恶意软件识别准确性的关键。在这篇文章中,我们将分享我们通过使用机器学习工具处理卡巴斯基安全网络 (KSN) 全球威胁数据来识别微妙的新威胁指标 (IoC) 以寻找新威胁的经验。我们还将讨论实施机器学习和解释威胁搜寻结果的挑战。
卡巴斯基安全网络 (KSN) 基础设施旨在接收和处理复杂的全球网络威胁数据,将其转化为可操作的威胁情报,为我们的产品提供支持。威胁相关数据的主要来源是我们客户的自愿贡献。要了解更多信息,请阅读卡巴斯基安全网络的原则和我们的隐私政策。
ML 在全球威胁日志分析中的作用
机器学习使系统能够从数据中学习并随着时间的推移提高其性能,而无需明确编程。当应用于网络安全日志时,ML 擅长分析大型复杂数据集。它可以自动识别模式、检测异常并预测潜在威胁。当应用于我们的 KSN 全球威胁日志时,ML 可以帮助预测和识别新威胁。
特别适合此任务的 ML 算法之一是随机森林。该算法的工作原理是在训练期间构建多个决策树,并在扫描期间根据树的多数票分配类别。随机森林在处理非线性数据、降低过度拟合风险以及深入了解数据集中各种特征的重要性方面特别有效。随机森林在识别模式方面非常有效,但这种优势可能导致可解释性方面的挑战,尤其是在使用较大的模型时。它可能会产生难以理解或解释的积极结果,因为决策过程很复杂。尽管如此,它的优势使其成为分析日志和发现隐藏的网络威胁的绝佳选择。
ML 随机森林过程
重建现实:在网络安全中使用机器学习的好处
持续学习使机器学习模型能够检测微妙和新颖的网络威胁,从而提供更强大的防御。然后,机器学习通过将原始遥测数据转化为可操作的见解来“重建网络现实”,这些见解可以反映网络或系统安全的真实状态。
使用日志重建现实:描述
机器学习技术能够实时分析大量数据,确保更快地识别和解决潜在威胁,最大限度地减少漏洞窗口。此外,机器学习的适应性意味着,随着新的攻击媒介出现,模型仍然可以提供一定程度的保护而无需更新,而传统系统通常需要不断修改规则。这会带来更主动、更有效的网络安全态势,使组织能够领先于日益复杂的网络攻击。
最终,机器学习能够从日志中部分重建网络现实,通过提供更清晰、更精确的安全态势视图,帮助组织领先于网络威胁,从而做出更快、更明智的决策。
方法论和挑战
本研究中提出的 ML 模型的目标是评估新日志并识别异常行为。为此,应准备一个干净的数据集,并且需要使用正确的选项配置模型以最佳地实现其目标。然后对模型进行训练和测试,然后部署以检查大量数据。
几乎每个组织都拥有独特的数据集,可以利用这些数据集来增强和改进服务。然而,这一机会伴随着遵守合规标准和法律要求的关键责任。这一责任是我们无法披露所涉及的训练过程和算法的所有细节的一个关键原因。下面我们将讨论我们为实现目标所采取的步骤,以及您在训练和应用类似模型时可能遇到的挑战。
数据集
机器学习数据集是用于训练、验证和测试 ML 模型的数据集合。数据集由各种示例组成,每个示例都包含特征(输入变量)和监督学习任务中的相应标签(输出变量或目标)。
我们的数据集是从大量之前调查过的事件中收集的,并且具有代表性。它描述了我们在各种威胁行为者的攻击中观察到的高级恶意软件活动。有关我们跟踪的 APT 威胁行为者的更多信息,请点击此处。数据集包含各种恶意活动指标,这些指标在自动收集后经过手动验证,以降低不准确的风险。
精心准备的数据集是任何 ML 项目成功的基础。数据集的选择、质量以及如何准备数据集并将其拆分为训练、验证和测试集,都会显著影响模型学习和泛化新数据的能力。“垃圾进,垃圾出”的格言在这里适用:如果数据集有缺陷或管理不善,ML 模型的预测也将不可靠。
预处理
预处理是机器学习流程中的关键步骤,在此步骤中,原始数据被转换为适合训练 ML 模型的格式。此过程包括清理数据、处理缺失值、将变量转换为缩放和规范化的数值表示,以及确保数据采用一致且标准化的格式。有效的预处理可以显著提高 ML 模型的性能和准确性。
我们用于此转换的一种流行方法是词频-逆文档频率 (TF-IDF),这是自然语言处理中使用的统计度量,用于评估文档中单词相对于文档集合的重要性。TF-IDF 将原始文本数据转换为一组机器可读的数字特征,然后可以将其输入到 ML 模型中。
模型的实施和训练
处理文本数据时,一种常见的方法是首先使用 TF-IDF 等技术将原始文本转换为数字特征,然后应用随机森林等 ML 算法对数据进行分类或分析。众所周知,TF-IDF 高效且用途广泛,而随机森林则以准确性、减少过度拟合和捕捉特征之间复杂的非线性关系的能力而闻名。TF-IDF 与随机森林的结合可以处理高维数据,同时还提供稳健性和可扩展性,这对于处理每天数百万条数据非常必要。
当机器学习模型在其设计的任务类型上表现始终良好,满足其开发过程中设定的性能标准时,它就达到了成熟度。成熟度通常由以下因素表示:
• 稳定的性能:模型在训练和验证数据集上都表现出一致且令人满意的性能。
• 泛化:模型可以很好地推广到新的、未见过的数据,保持与测试期间观察到的性能水平相似的性能水平。
• 训练越多收益越少:在某个时间点之后,添加更多训练数据或进一步微调模型并不会带来显著的改进。
值得注意的是,模型训练并不一定在达到成熟度时结束。为了保持模型成熟度,通常需要进行增量学习,这意味着需要通过随着时间的推移整合新数据来不断更新和完善机器学习模型。这种方法在数据分布和模式可能发生变化的动态领域中尤为重要,因此需要能够跟上这些变化的模型,而网络安全威胁形势正是这种情况。
在我们开发模型的过程中,99% 的目标准确率被设定为主要性能目标。一旦模型达到这一准确率水平,就会实施额外的步骤来进一步完善输出。这些步骤涉及对需要人工调查的特定案例的结果进行分类。
部署和计算成本
模型准备就绪后,可以将其集成到生产环境中,开始对新数据进行预测。这可以通过 API、嵌入应用程序或作为大型系统的一部分来实现。持续监控模型的性能以检测“概念漂移”等问题对于避免准确性下降、确保可靠的预测以及在不断变化的环境中保持模型的相关性至关重要。
同时,TF-IDF 和随机森林这两种选择都可能需要大量计算。TF-IDF 矢量化会导致非常大且稀疏的矩阵。在处理高维数据和大型数据集时,随机森林模型可能会变得很困难。
但是,通过正确的容量和超参数微调,可以达到最佳的 ML 框架,使模型发挥其潜力而不会牺牲准确性或效率。我们发现有用的 TF-IDF 参数示例包括允许的频率阈值、要提取的最大特征、要匹配的 ngram 范围。我们发现有用的随机森林参数示例包括估计量的数量、树的深度、分裂和叶样本以及质量和杂质测量。
结果的可解释性
在机器学习中,根据所使用的算法,解释模型以了解其如何进行预测是可能的。这可能涉及分析特征的重要性、可视化决策树或使用其他评估工具。
无论多么高效,每个模型都有其局限性,了解这些局限性很重要。随机森林的可解释性可能不如其他模型,尤其是在输入特征数量众多的情况下。TF-IDF 在设计上倾向于赋予稀有项目更高的重要性,而这些稀有项目在实际应用中有时会很嘈杂或不相关。这些特征限制在开发过程中得到了承认,并在模型微调中得到了考虑。
模型训练期间的机器学习结果在指导模型的开发、改进和优化方面起着至关重要的作用。这些结果提供了宝贵的反馈,可帮助数据科学家和机器学习工程师做出明智的决策,以提高模型的性能、指导调整并确保最终模型稳健、泛化性好并满足所需标准。
研究结果:发现新的网络威胁
在开始这项研究时,我们牢记,在日志分析中使用 ML 可以通过分析大量数据和发现模式来发现以前未知的网络威胁。该模型可以实时处理和学习数百万个数据点,指出可能表明存在新威胁或高级威胁的细微指标。然而,我们得到的结果超出了我们的预期:该模型揭示了数千种新的高级威胁。截至 2024 年上半年,ML 发现占 APT 相关活动检测的 25%。
以下是过去一年使用 ML 发现的几个入侵指标示例。经过检查,这些指标很快被发现是恶意活动的一部分。这里没有进一步调查涉及这些 IoC 的事件,但我们对这些和类似发现的分析已经发表(例如,这里和这里)或将在本网站的其他帖子或私人威胁情报报告中发表。
未来方向
未来使用 ML 进行遥测分析具有令人兴奋的可能性,即将出现的几项进步可能会进一步增强威胁检测能力。一个有希望的领域是集成深度学习技术,它可以自动从原始数据中提取和学习复杂模式。我们已经在某些产品中使用了深度学习,将其应用于威胁搜寻可能会进一步提高检测准确性并发现更复杂的威胁。
另一个探索领域是强化学习,其中模型可以通过与动态网络安全环境交互来不断适应和改进。这可能导致更主动的防御机制,不仅可以检测威胁,还可以实时响应威胁。
此外,联合学习为跨组织的协作威胁检测提供了重要机会,同时保护了数据隐私。通过允许模型从分散的数据中学习而无需共享实际数据,联合学习可以促进创建更强大和更通用的威胁检测模型。
结论 ✦
Conclusion
ML 与网络安全的结合已经展示了其变革潜力,因为它能够检测到传统方法可能忽略的新型网络威胁。通过分析大量复杂的日志,ML 模型可以识别细微的模式和 IoC,为组织提供强大的工具来增强其安全态势。过去一年发现的网络威胁示例凸显了 ML 在发现从政府到金融等各个行业的威胁方面的有效性。
这些技术不仅可以提高检测准确性,还可以实现更主动和协作的防御策略,使组织能够领先于不断发展的网络威胁形势。
在这篇文章中,我们评估了 ML 模型在 KSN 全球威胁数据上的使用情况,这使我们发现了数千种新的高级威胁。通过细致的数据集准备、预处理和模型实施来完善 ML 模型的过程凸显了利用这些技术构建强大、适应性强且可扩展的解决方案的重要性。
随着我们继续探索和增强这些功能,机器学习重塑网络安全并防范日益复杂的威胁的潜力变得越来越明显。网络安全的未来取决于我们能否合乎道德地有效利用这些工具,确保为所有人提供更安全的数字环境。
原文始发于微信公众号(卡巴斯基网络安全大百科):机器学习处于威胁搜寻研究的前沿
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论