中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

admin 2025年6月14日23:31:16评论9 views字数 2616阅读8分43秒阅读模式
中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

原文标题:HOLMES & WATSON: A Robust and Lightweight HTTPS Website Fingerprinting through HTTP Version Parallelism原文作者:Yifei Cheng, Yujia Zhu, Baiyang Li, Peishuai Sun, Yong Ding, Xinhao Deng, Qingyun Liu原文链接:https://doi.org/10.1145/3696410.3714578代码链接:https://github.com/2654400439/H123-Website-Fingerprinting数据集链接:https://zenodo.org/records/14727250发表会议:WWW 2025笔记作者:程逸飞@安全学术圈主编:@安全学术圈

1、研究背景

随着互联网用户对隐私保护意识的提升,HTTPS协议的广泛部署极大增强了用户通信的安全性。然而,即便内容已加密,通过分析网络流量的特征模式,攻击者仍然能够推测用户访问了哪些网站,这种攻击手段被称为网站指纹攻击(Website Fingerprinting, WF)。传统WF攻击方法通常依赖大规模训练数据和复杂的深度学习模型,并且在真实网络环境中容易受到网络条件变化和网站内容变化(概念漂移)的影响,实际攻击效果大打折扣。

针对上述问题,本文提出了一种创新性的轻量级、高鲁棒性的HTTPS网站指纹攻击方法:HOLMES & WATSON。此外,本文提供了源代码和超过1.5TB的HTTPS流量数据集。

中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

2、HTTP版本并行与隐私泄露

随着HTTP协议的不断演进,目前互联网上同时存在着HTTP/1.1、HTTP/2和HTTP/3三种协议版本。由于浏览器与服务器之间并不存在强制升级机制,不同的网站往往根据自身需求选择不同的HTTP版本,甚至在单次访问中同时使用多种HTTP版本,这一现象被称为HTTP版本并行

HTTP版本并行的存在具有三个关键特性,使其成为信息泄露的载体:

  • 普遍性:调查发现,在全球排名前10万的网站中,超过80%的网站同时支持至少两个HTTP版本,近一半同时使用了全部三个版本。

  • 独特性:不同网站对HTTP版本的选择和使用模式具有显著差异,形成了具有网站特异性的独特模式。

  • 不可避免性:HTTP版本的并行现象是当前网络生态系统演进中的自然结果,即使未来HTTP/3的部署率提升,出于兼容性和连接建立的原因,多版本并行仍将长期存在。

这些特性意味着HTTP版本并行在网络流量中具有很高的信息含量,通过分析这一应用层特征,即便在流量内容加密的情况下,仍能有效区分用户访问的网站。

中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

3、方法设计

方法设计的核心是利用HTTP版本并行现象,从加密流量中推断应用层高度稳定的指纹特征,并结合轻量级分类方法,构成一种高效、少样本、高鲁棒性的网站指纹攻击框架。该框架无需解密HTTPS流量,无需大规模预训练数据,极大简化了攻击的实际部署复杂度。

中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

3.1 HOLMES特征提取

传统WF攻击往往基于传输层特征,例如数据包序列和时间间隔,但这些特征容易受到网络波动影响,稳定性差。本文首次发现并利用现代互联网广泛存在的HTTP版本并行现象,即同一网站可能同时使用HTTP/1、HTTP/2、HTTP/3协议,不同网站具有独特的HTTP版本使用模式。HOLMES利用这一特性,在无需解密HTTPS流量的情况下,结合协议状态机模型,从加密流量中推断应用层资源数量和HTTP版本等稳定特征,构造了全新的指纹表示:H123指纹

3.2 WATSON轻量级分类方法

为减少传统机器学习或深度学习模型对大规模数据的依赖,WATSON采用基于惰性学习(Lazy Learning)的轻量级分类方法。该方法无需事先训练模型,而是在预测阶段实时计算待测样本与参考样本的距离。此外,本文设计了适用于H123指纹的专门距离度量,结合了Wasserstein距离和最长公共相似子序列(LCSS)距离,以精准捕捉指纹内部微妙变化。

4、实验设计

本文设计并开展了全面的实验评估。在12个不同场景下收集了超过1.5TB的HTTPS流量数据,包括220,000个样本,涉及80,000个网站。实验场景涵盖了闭合世界和开放世界设置、跨不同浏览器类型的表现评估、带宽差异条件下的鲁棒性分析、以及长时间概念漂移情景下的有效性验证。此外,还与当前最先进的多个WF攻击方法(如k-FP、DF、TF、RF和IP-WF)进行对比,以全面衡量本方法的性能。

中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

5、实验结果评估

5.1 封闭世界场景下的攻击性能评估

在封闭世界场景下,论文首先评估了HOLMES & WATSON在不同子场景下的表现,具体包括:

  • 少样本学习场景:仅使用每个网站单个训练样本时,H&W明显优于现有技术。

  • 不同监测网站集合:H&W方法在不同类型的网站集合(例如随机集合、审查集合)中表现稳定且出色。

中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

5.2 跨网络环境的鲁棒性分析

为验证方法的鲁棒性,论文测试了HOLMES & WATSON在带宽、延迟变化等跨网络环境条件下的表现。实验结果显示,H&W方法的应用层特征明显比传统方法更具稳定性。

中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

5.3 概念漂移条件下的有效性验证

概念漂移是指网站内容随时间变化导致流量特征变化,论文专门评估了概念漂移对方法性能的影响。HOLMES & WATSON在长达30天的概念漂移条件下表现出明显优于现有方法的鲁棒性。

中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

5.4 开放世界场景下的泛化能力评估

开放世界场景要求方法具备区分大量未知网站的能力。实验表明,HOLMES & WATSON在这种条件下依旧保持了高精准度和召回率。

中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

6、本文贡献

  • 本文首次揭示并深入分析了HTTP版本并行对HTTPS流量隐私带来的新风险,提出了一种无需解密即可高效提取应用层指纹特征的方法。此外,本文设计了一种适合少样本、无需模型预训练的轻量级分类方法,显著降低了实际部署的复杂度。

  • 本文成果不仅揭示了当前HTTPS隐私保护机制的潜在不足,也为未来流量隐私保护技术的研究提供了新的方向和重要参考。

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com

专题最新征文

原文始发于微信公众号(安全学术圈):中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年6月14日23:31:16
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   中科院信工所 | 福尔摩斯与华生:通过HTTP版本并行性实现鲁棒轻量级的HTTPS网站指纹识别https://cn-sec.com/archives/4165800.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息