如果在计算上不可能找到两个输出相同的不同输入，则哈希函数是抗冲突的。加密散列函数，如MD5、RIPEMD-160、SHA-1、SHA-2和当前NIST标准SHA-3[38]，设计为抗冲突，并产生128至512位的大结果。1由于散列两个不同的数据对象偶然产生相同摘要的概率非常小，我们可以安全地假设，如果两个对象具有相同的加密摘要，那么对象本身是相同的。

当前的做法是将加密哈希函数应用于整个目标（驱动器、分区等）或单个文件。前者用于通过比较调查中重要点的前后结果来验证取证目标的完整性（例如，证明整个羁押链中证据的完整性），而后者用于处理已知文件。这包括从考虑中删除常见文件，如操作系统和应用程序安装，或确定已知的感兴趣文件，如恶意软件和违禁品。美国国家标准与技术研究所（NIST）维护国家软件参考库（NSRL）[39]，其中包括最常见的操作系统安装和应用程序包。数字取证工具的其他组织和商业供应商提供了其他已知数据的附加哈希集。

从性能和效率的角度来看，基于哈希的文件过滤非常有吸引力——使用20字节的SHA-1哈希，5000万个文件的表示仅需1GB。这使得可以在主内存中加载该大小的引用集，并在从取证目标读取数据时实时过滤掉该集中的任何已知文件。

6.2 块级分析

除了整个文件之外，调查人员还经常对发现已知的文件残留物感兴趣，例如当文件被标记为已删除并随后被部分覆盖时产生的残留物。解决这个问题的一种常用方法是通过将文件拆分为固定大小的块并存储每个块的散列来增加散列的粒度。块大小通常设置为4KiB，以匹配大多数操作系统安装使用的最小分配单元。给定基于块的参考集，取证目标（RAM捕获或磁盘图像）可以被视为一系列块，这些块可以逐块读取、散列并与参考集进行比较。

在这种情况下，我们说一个块是不同的，如果它的确切内容偶然出现一次以上的概率很小。如果我们知道一个事实对于一个特定的文件来说是唯一的和特定的，那么（就证据价值而言）在一个取证目标上找到它将几乎等同于找到它所来源的整个文件。在实践中，我们无法确定每个可能的数据块的独特性；因此，我们使用基于经验数据的近似假设：

如果已知一个文件是使用某种高熵过程制造的，并且如果该文件的块在一个大型且具有代表性的语料库中显示为不同的，那么这些块可以被视为是不同的。”可能产生高熵数据的最常见的转换是数据压缩，它通常用于许多常见的文件格式，例如音频/视频和办公文档。

除了直接使用块作为已知文件（过去或当前）存在的跟踪证据之外，在执行雕刻过程之前，通过排除每个已知块，可以使用块散列来改进文件雕刻结果。这可以通过减少差距和消除某些类型的假阳性结果来改善结果。

6.3 近似匹配

查找相同数据对象问题的一个自然概括是查找相似的数据对象。在数字取证的背景下，基于相似性的技术的公认总称是近似匹配（AM）。根据NIST的定义，“近似匹配是一个通用术语，描述了旨在识别两个数字制品之间相似性的任何技术”。

这个广义术语包括可以在不同抽象级别工作的方法。在最低级别，伪影可以被视为比特串；在最高层次上，相似性技术可以采用自然语言处理和图像识别方法，以提供更接近于人类分析师的推理水平。就整个相似性方法而言，较低级别的方法更通用，计算成本也更低廉，而较高级别的方法往往更专业，需要更多的计算资源。因此，我们希望取证调查能够根据分析目标和目标数据定制AM技术的使用。

用例。使用常见的信息检索术语，考虑相似性检测问题的两种变体是有用的：相似性和包含[43]。相似性查询比较两个大小相当的数据对象（对等体），并试图推断它们之间的关系有多密切。两种常见的取证应用包括：（a）物体相似性检测——将人会归类为彼此版本的人工制品进行关联；以及（b）互相关——将共享相同组件的对象（如嵌入图像）相互关联。

在包含的情况下，我们比较在大小方面存在较大差异的工件，并试图确定较大的工件是否包含较小的工件。两种常见的变化是嵌入式对象检测——确定较小的对象（如图像）是否是较大对象（如PDF文档）的一部分，以及碎片检测——确定更小的对象是否是较大的对象（例如文件）的碎片（如网络包或磁盘块）。

相似性和包含性之间的区别取决于具体情况，相同的工具可能在两种情况下都有效。然而，分析师将工具结果放入正确的上下文，并理解他们正在使用的工具的性能范围，以便正确解释结果。

定义。相似性的概念是特定于其使用的特定上下文的。近似匹配算法通过定义两个基本元素——特征和相似性函数来工作。特征是从工件中导出的原子组件，通过这些组件可以比较工件。比较两个特征会产生一个二进制结果——零或一——表明特征匹配是否成功。由算法为给定工件计算的所有特征的集合构成特征集合。可以将其视为原始对象的近似表示，以便与其他对象进行匹配。

相似性函数将一对特征集映射到相似性范围；它相对于匹配特征的数量越来越单调。也就是说，在所有其他条件相同的情况下，更多的特征匹配会产生更高的相似性得分。

类别考虑三类一般的近似匹配算法是有用的。字节匹配将对象与一系列字节进行比较，并且不进行解析或解释。因此，从伪影中提取的特征也是字节序列，这些方法可以应用于任何数据块。结果的效用在很大程度上取决于数据的编码。如果工件内容的微小变化导致序列化格式（例如，纯文本）的微小变化，那么字节相似性往往与人对相似性的感知密切相关。相反，如果一个小的变化可以触发输出中的大的变化（例如，压缩数据），那么相关性将大大减弱。

语法匹配依赖于解析对象的格式，可能会使用这些知识将其拆分为一组逻辑特征。例如，一个zip存档或PDF文档可以很容易地分割成多个组成部分，而不需要理解底层语义。好处是，这会产生更准确的解决方案，并产生更精确的可解释结果；缺点是它是一个更专业的解决方案，需要额外的信息来解析不同的数据格式。

语义匹配（部分）解释数据内容，以便导出用于比较的语义特征。例如，感知散列可以检测视觉上相似的图像，信息检索和自然语言处理方法可以发现文本文档主题和内容的相似性。

研究人员使用各种术语来命名他们开发的不同近似匹配方法：模糊哈希和相似哈希指的是字节近似匹配；感知散列和鲁棒散列是指语义近似匹配技术。

字节近似匹配算法是取证中最常用的AM算法；他们遵循提取特征集并生成相似性摘要的总体模式，然后对摘要进行比较。相似性摘要（也称为指纹或签名）是目标工件的特征集的（压缩）表示。它经常使用散列和其他技术来最小化集合的足迹，并促进快速比较。

6.4 云原生产品

云系统的取证分析仍处于早期发展阶段，但其重要性将迅速增长。一个新的、有希望的领域是分析云（原生）工件数据对象，这些工件数据对象维护了web/SaaS应用程序的持久状态。与传统应用程序不同，在传统应用程序中，持久状态以本地文件系统中的文件的形式出现，web应用程序会实时下载必要的状态，而不依赖本地存储。回想一下，web应用程序的功能在服务器组件和客户端组件之间分离，两者通过web API进行通信。从取证的角度来看，最有趣的API调用涉及（完全）状态转移；例如，打开文档或加载以前的版本，会触发其完整内容的传输。从概念上讲，这类似于由安装在设备上的应用程序打开和读取本地文件内容的过程。主要区别在于，云工件是内部数据结构，与文件不同，它不容易用于分析。

云工件通常具有与传统的以快照为中心的编码完全不同的结构。例如，在内部，GoogleDocs的文档被表示为对其执行的每个编辑操作的完整历史（日志）；如果提供有效的凭据，则可以通过Google Docs的内部API获取该历史记录。还可以通过公共API以标准格式（如PDF）获取感兴趣工件的快照。然而，这在取证学上是固有的缺陷，因为它忽略了文档随时间演变的潜在关键信息。

7 结论

数字取证识别并重建导致目标IT系统或（数字）工件当前可观察状态的相关事件序列。数据来源的来源和完整性以及所采用的调查工具和方法的科学依据对于确定其是否可被法院诉讼程序受理至关重要。数字取证分析既适用于单个数字工件（如文件），也适用于包括多个组件和联网过程的复杂IT系统。

随着基于云的从软件即产品（SaaP）到软件即服务（SaaS）的快速过渡，取证方法和工具也在各自的过渡过程中。一个方面是重点从以状态为中心的分析转变为以日志为中心的解析，以状态为核心的分析寻求通过查看不同的快照并应用有关系统操作的知识来推断事件和动作，以日志为核心的解析使用显式收集的日志条目来推断相关（查询）事件的顺序。另一个方面是通过定义良好的云服务API从存储设备映像的低级物理获取到（主要）应用程序工件的高级逻辑获取的转变。数字取证中一些最重要的新兴问题是对各种物联网设备的分析，预计到2030年，这些设备的数量将增加到1250亿台，以及使用机器学习/人工智能来实现取证处理的自动化和规模化。

渗透测试过程中所需工具

渗透测试：信息安全测试和评估技术指南NIST SP 800-115

苹果发布iOS 16.1 和 iPadOS 16

法国对人脸识别公司Clearview AI处以罚款

Offensive Security渗透测试报告模板

法国对人脸识别公司Clearview AI处以罚款

密码报告：蜜罐数据显示针对 RDP、SSH 的 Bot 攻击趋势

网络安全取证（十一）操作系统分析之块设备分析

国外网络安全一周回顾20221024

黑客开始利用关键的“Text4Shell”Apache Commons Text 漏洞

黑客从Olympus DAO 窃取30 万美元，后在同一天归还

防火墙与代理服务器