当前,各种钓鱼网站检测技术蓬勃发展,但大多存在低分类准确性、弱时效性或弱适应性等一个或多个缺陷。黑白名单机制存在后效性,即钓鱼网站的发现往往在受害者出现以后,已经难以适应当前钓鱼网站低成本、数量激增的发展趋势。传统的规则性或启发式钓鱼网站检测技术也大多存在适应性差及防御能力弱等缺点。因此,本文采取主动的、基于深度学习的反钓鱼网站技术,旨在克服前人检测技术方法的不足,设计一个鲁棒性强,综合性强,融合多种检测方法的优点的模型。
我们设计了一套端到端的钓鱼网站检测架构,用户在输入端仅需输入希望检测的可疑网站URL地址,由架构负责完整的网站数据爬取、数据处理、模型预测与输出结果的操作。完整的钓鱼网站检测架构包含三大部分,数据获取部分、特征预处理部分和神经网络部分。检测模型结构见图1。
用户在输入端输入可疑网站的URL地址,如“https://www.baidu.com/”,数据处理部分根据用户输入地址利用webdriver获取网站的HTML文档及网页截图,即网站的文本数据与图像数据。接下来,特征处理部分将对获取的数据进行特征提取的预处理,包括自定义特征、文本特征与图像特征。提取出的三种特征信息将作为神经网络的输入数据送入神经网络,由模型计算并输出分类结果。
图1 多特征检测模型结构
3.1自定义特征
首先,我们观察并分析了钓鱼网站和合法网站的数据特征,并手动选择了一些在钓鱼数据和合法数据之间表现出明显的分布差异的自定义特征,这些自定义的特征可以帮助模型进行分类。这些特征如表1所示。这些特征项分为图像类、HTML类和URL类。除了常见的钓鱼特征项,我们还增设了新的特征项,包括与截图相关的特征项"网页截图白色区域比例",以及与超链接相关的特征项"异域超链接比例"和"超链接总数量"。以上自定义特征将被作为训练与测试集的主干输入数据送入8层Relu激活的全连接神经网络,作为钓鱼检测网络的主要分类依据。
表1 自定义特征
3.2文本特征
(1)分词
(2)构建词典
(3)序列补全
为了规范化输入模型的序列数据,我们在利用词典映射为词序列后还需要标准化词序列的长度,对短序列进行0值补全,对长序列进行截断处理。经过对数据的观察,我们设定URL数据的标准化长度为16,HTML的标准化长度为256。
图2 文本特征提取与神经网络
3.3图像特征
钓鱼数据集网页截图如图3所示。可以观察到,图片尺寸相对较大,各网页布局元素较小。在这种情况下,直接将原始图片送入卷积神经网络进行处理是不可取的,因为卷积神经网络存在下采样,如果网络直接进行下采样,很容易丢失信息,难以从中学习提取特征,不利于网络的训练。因而,对网页截图进行预处理来预先分割提取网页截图中信息量较大的区域,如网页的品牌图标、登陆操作输入栏位等,再通过神经网络特征提取分析是很有必要的。
图3 网页截图示例
Geng G.等[3]通过直接提取网页标题栏的icon图标获取图像特征,具有提取简单,数据量小,易处理等优点,但可能存在无icon的网站。另一种方案是利用深度学习的目标检测与图像分割的相关算法对网页截图进行预分割,但这种方法实现较为复杂,且需要大量的框选数据进行训练,不适用于钓鱼网站检测的课题。本文参考Dooremaal B. V.等[4]的基于图形学数字图像处理的网页截图分割方案并对其进行改进,我们的分割方案分为以下四个步骤:
图4 二值化
景分割效果较好的ostu算法。并最终使用前后景分割效果较好的ostu算法。ostu算法的原理是,对于分割阈值,将所有像素分为小于
的
和大于
的
两类,计算两类的均值与全局均值
、
和
,假设像素被分为两类的概率分别为
与
,则有
由方差的概念得类间方差

图5 形态学闭运算
图6 拓扑结构分析
图7 过滤
通过以上步骤即可获取一张网页截图的多个分割区域,之后我们将每个区域标准化大小为,保持长宽比例不变,不足区域用黑色补齐,就可以作为钓鱼检测模型的图像特征送入深度学习神经网络(图8)。
图8 图像特征网络






3.4分类网络
4.1数据集与训练

4.2测试结果与分析
表2 训练测试结果
通过结果分析,对于简单的自定义特征分析,随机森林算法的分类检测效果相对最好,优于支持向量机和深度学习神经网络。但随机森林算法的多特征融合能力相对较弱,适应性较差,在多特征条件下的分类性能不如神经网络。
在这两个辅助特征中,文本特征包含了网站的完整代码信息,具有更显著的钓鱼特征,如URL长度和复杂性,其分类性能优于图像特征。然而,由于"视觉合理性"这一客观因素,即钓鱼网站必须在视觉上合理以欺骗用户,图像特征在理论上更能抵御反钓鱼攻击,也是钓鱼检测模型中不可或缺的一部分。
自定义特征方面,为了验证各项自定义特征对网络分类的实际贡献,我们利用随机森林算法的特性,计算了每种自定义特征的贡献权重,如表3所示。由表可以看出,“异域超链接比例”、“超链接总数量”、“HTML长度”和“域名所含点数”是相对贡献值最高的几种特征。我们可以推断认为这四种特征在钓鱼网站与合法网站的分布上有较大的不同。比如“异域超链接比例”和“超链接总数量”在钓鱼网站上体现为:由于钓鱼网站往往为了降低成本,只开发网站的主页面或登陆页面,所以只要钓鱼网站页面内存在超链接,往往100%指向其它的域名,且大多数指向自身所仿冒的目标网站本身的链接。再比如,为了仿冒目标网站的域名(如“www.paypal.com”),钓鱼网站的域名有时会基于目标域名作扩充(如“www.paypal.com.as2.2u.se”),其导致的结果就是域名所含点数或URL长度会较长。特别的,“域名是否为IP地址”这一项贡献为0的主要原因是本文训练所用数据集中不包含域名为IP地址的数据项,而实际网络空间中,钓鱼域名也常以IP地址形式出现。
表3 自定义特征分类权重(随机森林)
参考文献
1. Oest A, Zhang P, Wardman B, et al. Sunrise to sunset: Analyzing the end-to-end life cycle and effectiveness of phishing attacks at scale[C]//29th {USENIX} Security Symposium ({USENIX} Security 20). 2020: 361-377.
2. Sheng S , Wardman B , Warner G , et al. An Empirical Analysis of Phishing Blacklists[J]. 2009.
3. Geng G G , Lee X D , Wang W , et al. Favicon - A clue to phishing sites detection[C]// 2013 eCrime Researchers Summit (eCRS). IEEE, 2013.
4. Dooremaal B V , Burda P , Allodi L , et al. Combining Text and Visual Features to Improve the Identification of Cloned Webpages for Early Phishing Detection[C]// ARES 2021: The 16th International Conference on Availability, Reliability and Security. 2021:1-10 .
5. Otsu N . A Threshold Selection Method from Gray-Level Histograms[J]. IEEE Transactions on Systems Man & Cybernetics, 2007, 9(1):62-66.
6. PhishTank[EB/OL]. https://phishtank.org/.
7. OpenPhish[EB/OL]. https://openphish.com/.
8. PhishStats[EB/OL]. https://phishstats.info/.
9. Alexa Top Sites Service[EB/OL]. https://www.alexa.com/topsites.
10. Zhang L , Zhang P , Liu L , et al. Multiphish: Multi-Modal Features Fusion Networks for Phishing Detection[C]// ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 3520-3524.
11. Bahnsen A C , Bohorquez E C , Villegas S , et al. Classifying phishing URLs using recurrent neural networks[C]// Electronic Crime Research. IEEE, 2017.
12. Opara C , Wei B , Chen Y . HTMLPhish: Enabling Accurate Phishing Web Page Detection by Applying Deep Learning Techniques on HTML Analysis[J]. 2019.
原文始发于微信公众号(风眼实验室):钓鱼网站的多特征维度检测
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论