本书的第一部分主要关注 Linux 虚拟机,我解释了许多有助于我们调查的应用程序。这些程序需要一条信息,这使我能够呈现脚本来自动化流程。例如,Instagram 工具会提示您输入用户名,然后执行适当的命令以简化流程。本章有许多相似之处,但也有一些关键区别。它包含一些高级应用程序,这些应用程序无法使用简单的脚本和应用程序实现自动化,这需要前面章节中解释的课程。其中一些程序需要大量的用户输入,其功能必须在终端中解决,而其他程序则提供类似于本书第一部分中提供的选项的自动化。
在我们开始之前,有两个非常重要的细节。首先,我不会显示每个程序的脚本和快捷方式中的完整代码。如果您想查看完整代码,您可以轻松导航到之前下载的“vm-files”存档中的“scripts”和“shortcuts”文件夹。在本章中显示冗长的文本可能会被认为是多余的并且浪费纸张。我在这里只关注每个工具的好处。
接下来,本章中提到的每个应用程序都已存在于您的虚拟机中,该虚拟机拥有一个自动脚本来帮助您进行使用。如果您完成了第五章中的所有步骤并创建了自定义 OSINT 虚拟机,您就可以开始使用这些应用程序了。我鼓励您启动到“OSINT Original”虚拟机的克隆,并在学习本章时测试课程内容。
您之前的工作将在这里得到回报,并允许您直接进入。我仍然提供每个应用程序的安装、配置和使用的手动步骤,以便您理解该过程。如果您只想启动自定义虚拟机中的每个程序,则无需重复这些步骤。
有些读者会跳过本章,直到他们对 Linux 更加熟悉为止。但是,我相信任何技能水平的人都可以复制所有教程。大多数应用程序都会感觉与前面第一节中讨论的自动化类似。让我们从自动化任务开始。
互联网档案工具
我之前在搜索已被删除的在线内容时解释了互联网档案馆的力量。在 Wayback Machine 网站上浏览目标域可能会非常有成效,但自动化数据收集可能会更有益。我们在第四章和第五章中制作的自定义 OSINT VM 中名为“archives.sh”的“存档工具”脚本利用了之前安装的名为“waybackpy”的 Python 脚本。启动脚本会显示一个接受域或特定 URL 的单个域输入窗口。执行脚本将执行以下任务,并使用 fakeradio.org 作为目标。
在 Documents 文件夹中创建一个数据目录并输入:
mkdir ~/Documents/waybackpy
mkdir ~/Documents/waybackpy/pretendradio.org
cd ~/Documents/waybackpy/pretendradio.org
将互联网档案馆索引的所有已知 URL 下载到文本文件中:
waybackpy--url"https://pretendradio.org"--known urls
将已知最早的存档 URL 下载到文本文件中:
waybackpy--url"https://pretendradio.org'' --oldest >> pretendradio.txt
向文件附加最新的存档 URL:
waybackpy--url"https://pretendradio.org"--newest>>pretendradio.txt
将过去十年的 URL 附加到文件中:
waybackpy --url "https://pretendradio.org"--near --year 2010>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2011>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2012>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2013>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2014>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2015>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2016>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2017>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2018>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2019>> pretendradio.txt
waybackpy --url "https://pretendradio.org"--near --year 2020>> pretendradio.txt
删除重复项并按日期排序:
sort-u-i pretendradio.txt-o pretendradio.sorted.txt
仅用一个线程(较慢)生成所有唯一链接的屏幕截图:
webscreenshot-r chrome-i fakeradio.sorted.txt-w1
下载最旧和最新档案的源代码:
waybackpy--url"https://pretendradio.org"-o>oldest.html
waybackpy--url"https://pretendradio.org"-n>newest.html
结果是 Documents/waybackpy 中的“pretendradio.org”文件夹,其中包含超过 500 个 URL(包含重复项)的文本文件,这些 URL 是目标域上的潜在证据;目标网站五个已知档案的文本文件;所有五个档案的屏幕截图;以及最新和最旧档案的源代码。图 29.01 显示了识别目标网站在 2017 年 4 月和 10 月出现方式的结果。
想象一下,您有一个目标 URL,其中包含过去十年中的数百个档案。这是查看网站年度变化并记录证据的快速方法。该工具完成后,您将看到包含所有数据的文件夹。
现在我们有了这些页面的屏幕截图,我们还应该提取文本。自定义 VM 中包含的自动化脚本在周期结束时执行以下操作。
wget-i $url.sorted.txt
这会将多个文件放置在“Documents”文件夹内的“waybackpy”文件夹中。在此示例中,它们包括以下内容。
index.html
index.html.1
index.html.2
index.html.3
其中每一个都是不同日期的目标网站的存档主页。双击它们将在网络浏览器中加载页面,该浏览器应以类似于以前显示的方式显示目标站点。
然而,关键字搜索也可能是有益的。您可以使用“Files”应用程序中的嵌入式搜索功能,该功能在成功完成脚本后会显示。图 29 .02 显示了我在这些文件中搜索单词“prison”的情况。结果确定了我需要进一步调查的感兴趣的文件。
总之,该工具编译了互联网档案馆中与目标网站相关的 URL 列表;创建这些页面的屏幕截图;并提取文本以便快速搜索。
完整译文获取:
原文始发于微信公众号(威胁情报捕获与分析):开源情报收集与分析中的神兵利器
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论