代尔夫特理工大学| 互联网尺度上的遗弃网页检测

2023年7月23日20:03:27评论23 views字数 2174阅读7分14秒阅读模式

原文标题：Out of Sight, Out of Mind: Detecting Orphaned Web Pages at Internet-Scale
原文作者：Stijn Pletinckx, Kevin Borgolte, Tobias Fiebig
原文链接：https://dl.acm.org/doi/pdf/10.1145/3460120.3485367
发表会议：ACM CCS 2021
笔记作者：0kka@安全学术圈
笔记小编：黄诚@安全学术圈

1、研究介绍

安全配置错误和忽略更新经常会导致系统容易受到攻击。特别是在网站中，我们经常会发现被遗忘的页面，也就是说，这些页面在完成它们的任务后就被遗忘了，但它们仍然保持在线状态，且从未进行更新。

通常移除一个网页需要两个步骤：1）从web服务器上移除它；2）移除指向它的链接。如果仅仅移除指向它的链接并不会使其本身消失，而是成为所谓的遗弃网页。作者通过展示管理员对网站的认知和公众对网站的认知的差异进一步解释了遗弃网页。其中遗弃网页依据其是否受到维护又可分为两个类别，分别与管理员是否知晓相对应。

在这篇文章中，作者提出了一种检测遗弃网页的新方法，通过将来自Internet Archive上的历史数据与主动测量相结合，以识别那些通过特定URL仍然可以访问但无法通过索引页路径到达的页面，并利用工具测试了网站的XSS和SQL注入的安全性，证明了遗弃网页的维护网页在漏洞方面的显著性差异。

2、主要创新点

2.1、遗弃网页的识别方法

由于遗弃网页通过网站指向链接的递归查找是不可达的，因此作者采用了Internet Archive从时间维度上对遗弃网页进行侦测。作者首先利用了sitemap可以对网站的历史结构进行对比来发现孤立网页，如果一个网页曾经在sitemap中存在过，然后就测试其可达性以及其与最后一次历史存档的差异。

作者的方法包括了4个步骤：

（1）收集候选遗弃网页：利用爬虫爬取目标域名当前的网页情况以及存档中此前的最后内容来筛选候选遗弃网页；

（2）剔除资源文件：删除了包含特定后缀的URL；

（3）动态URL检测：网站中动态生成的部分URL通常具有一些统一的前后缀，因此作者采用了一种启发式方法来对这些URL的公共前缀进行识别。具体算法如下所示，其中PC（Popularity cutoff）表示域名下属的所有URL包含相应前缀的比例，ST（Short-link threshold），LT(Long-link threshold)则分别表示一个链接被认为是长短链所包含的字母数，LC（Long-link cutoff）则是一个域名所属长链的数量，用于判断是否执行该启发式方法。

（4）探测候选遗弃网页的存活性：通过状态码判断遗弃网页的可达性。

工具的开源实现：https://github.com/OrphanDetection/orphan-detection

3、数据分析

各过程的数据处理情况如下：

3.1、存档数据分析

作者首先就包含网页的域名与所有域名的归档数据分析了网站的发展情况，包括网页数量的平均数、中位数、箱线图以及CDF。

3.2、网页相似度

作者通过simhash与汉明距离对归档网页以及当前网页的相似度进行了比对，可见虽然随着时间变化，部分网页的内容仍然没有发生改变。

3.3、遗弃似然分数

作者使用了网页的最后可见日期和相似度两个参数来度量网页是否为有意孤立的可能性度量：

其中为相似度，则为网页存活时间，作者通过调整两个权重来使遗弃页面更具有区分度。

3.4、网页类型分类

作者采用了四个指标来对网页的类型进行判断：

（2）没有进一步开发的样板代码；

（3）错误页面，此前已经移除了不满足条件的状态码；

（4）在重定向与frame加载之后。

3.5、遗弃URL的Google可见性

作者使用搜索引擎对URL的可见程度进行索引，以证明方法的有效性。

3.6、安全评估

作者假设包含遗弃网页的网站通常存在更多的漏洞，并设置了三个对照组，包括互联网上随机采集的网页（Control 1），包含遗弃网页的网站网页（Control）以及遗弃网页。作者使用开源漏洞扫描工具Wapiti进行测试。最终发现三种类型的网页安全性依次递减。

4、个人思考

本文针对网站管理员对遗弃网站缺乏关注的现状设计了一种方法来探测互联网上遗弃的网页，并探讨了潜在的安全问题，并通过实验很好地验证了提出的科学假设。同时本文还存在一些可以进一步研究的地方，比如对孤立网页的查找，本文只对比了最新的网页情况，忽略了网站更新过程中可能出现的遗弃网页。同时动态URL检测算法仅考虑了前缀这种生成算法，对动态链接生成方式的识别较为单一，尝试结合n-gram与马尔科夫链也许能达到不错的效果。

论文作者信息

论文作者：Stijn Pletinckx
作者介绍：加州大学圣芭芭拉分校博士生，硕士毕业于代尔夫特理工大学(TU Delft)，研究方向为互联网测量及网络安全，旨在从安全角度对互联网环境进行实证研究。
个人主页：https://spletinckx.github.io/

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

原文始发于微信公众号（安全学术圈）：代尔夫特理工大学| 互联网尺度上的遗弃网页检测

左青龙
微信扫一扫

右白虎
微信扫一扫

代尔夫特理工大学| 互联网尺度上的遗弃网页检测

1、研究介绍

2、主要创新点

2.1、遗弃网页的识别方法

3、数据分析

3.1、存档数据分析

3.2、网页相似度

3.3、遗弃似然分数

3.4、网页类型分类

3.5、遗弃URL的Google可见性

3.6、安全评估

4、个人思考

论文作者信息

软件开发者被骗安装恶意软件的虚假npm包

密码管理乱象：九成用户靠好记性和烂笔头

网安简报【2024/4/27】

Spyware.Joker分析报告

管控设备接入，规范使用范围，IP-guard助力落实移动存储设备管理

分析新BBTok 恶意银行软件变体的服务器端组件

泄露用户隐私，智能门铃厂商Ring遭重罚

蠕虫爆发，PlugX新变种感染250万主机

iMessage 零点击RCE利用被曝现身黑客论坛

深度丨隐私计算技术标准化路径分析与建议

发表评论

在线咨询

微信