基于流量分析的网络故障分析思路与典型案例分享

admin 2025年5月29日11:00:53评论20 views字数 2002阅读6分40秒阅读模式

基础知识

1.HTTPS数据加密传输流程

基于流量分析的网络故障分析思路与典型案例分享

2.抓包过程中看到的交互

基于流量分析的网络故障分析思路与典型案例分享

3.网站响应慢分析过程,首先是DNS时延,然后再看三次握手时延、SSL握手时延、HTTP请求时延、HTTP响应时延等。

基于流量分析的网络故障分析思路与典型案例分享

4. DNS查询,重点查看查询是否成功,查询时间与成功时间的时间差。

基于流量分析的网络故障分析思路与典型案例分享

5.SYN 包需要重点关注的内容存活时间(TTL)、MSS(最大报文长度)、窗口大小、分段标志等。

基于流量分析的网络故障分析思路与典型案例分享

6. SYN ACK包需要关注的内容也是MSS、窗口大小、存活时间(TTL)、分段标识等,其中还有与SYN时间差,这是抓包点到服务器的双倍时间,可以认为是抓包点到服务器的网络延时。

基于流量分析的网络故障分析思路与典型案例分享

7.ACK包需要关注的内容也是MSS、窗口大小、存活时间(TTL)、分段标识等,其中还有与SYN ACK时间差,这是抓包点到客户端的双倍时间,可以认为是抓包点到客户端的网络延时。

基于流量分析的网络故障分析思路与典型案例分享

8.客户端hello,需要重点关注客户端支持的密码套件

基于流量分析的网络故障分析思路与典型案例分享

9.服务器hello证书,需要重点关注客户端支持的密码套件,证书有效期和证书域名等信息。

基于流量分析的网络故障分析思路与典型案例分享
基于流量分析的网络故障分析思路与典型案例分享
10.三次握手响应时间正常,客户端发起请求后,服务器间隔29.9秒才进行响应,如果中间还有别的设备可能是别的设备导致,如果没有则是服务器响应慢。可以通过在服务器上装包,或者在中间设备上抓包进行确认。
基于流量分析的网络故障分析思路与典型案例分享
同一方向出现不同TTL值的重置包(RST)包时,一般为断开安全设备发送的RST包。

案例1 app无法访问故障

1.1故障描述 用户通过手机app访问业务异常,打开后无任何数据呈现。

1.2故障排除互联网访问通过使用HTTPS加密协议,经分析SSL/TLS四次握手过程中,服务器发给客户端的证书已过期,因此手机端进行证书验证时失败,导致业务无法正常访问。原来工程师在证书过期之前进行了证书更换,但是并没有发现新证书没有生效,重新进行配置后故障解决。

1.3小结可以通过回溯分析系统查看IP地址、网络协议、端口号、并发连接数、三次握手时间、0窗口、响应时间等信息,SSL/TLS四次握手过程为明文传输,可以查看SSL/TLS协议版本、密码套件列表、服务器数字证书等明文信息。

基于流量分析的网络故障分析思路与典型案例分享

案例微信小程序打开慢问题

2.1故障描述用户通过网页登录微信小程序正常,通过手机微信小程序打开缓慢,甚至提示无法连接,严重影响用户体验。

2.2故障排除查看SSL卸载设备后的流量,查看明文数据包,发现回复407字节为状态响应码401错误,提示“访问异常用户未登录”,查看HTTP请求头此类请求未携带token信息。通过在客户端和服务器本地抓包进行比较,结果一致,则认为这个响应慢是服务器本身响应慢,排除中间网络及安全设备问题。工程师通过限制未携带token的访问后,访问速度明显提升,用户对访问速度表示满意。

基于流量分析的网络故障分析思路与典型案例分享

2.3小结 针对现有HTTPS的业务,将加密流量通过镜像的方式发给安全设备探针,通过导入服务器私钥进行解密,这样不仅需要反复导入证书,并且对于采用DH密钥交换的加密算法,即使导入服务器私钥也没法解析出业务。可将证书部署在负载均衡设备上进行统一管理,通过负载均衡后进行SSL进行统一卸载。

案例3更改DNS配置后导致业务访问慢

3.1问题分析为降低大量出现的DNS请求,将内网无法解析的地址加入了A记录,指向了不存在的地址,如1.1.1.1。于此同时,业务反馈与HTTPS相关的访问情况,具体现象为打开浏览器出现近15秒白屏,之后可以使用正常。

3.2故障排除经分析访问慢的时候,客户端访问了这个ctldl.windowsupdate.com域名,这个域名被DNS指成了1.1.1.1ctldl.windowsupdate.com微软的根证书更新域名,客户端访问https时会访问此地址,然而访问我们指向不存在的地址时,只能等待会话超时结束,造成了整个访问过程异常慢。

基于流量分析的网络故障分析思路与典型案例分享

3.3防范措施 删除改域名的DNS解析记录,当查询到主机或域名不存在时也不会影响响应速度。也可在运行gpedit.msc,打开“本地组策略编辑器”,找到“关闭自动根证书更新”,设置“已启用” 

案例4安全策略导致业务故障分析

4.1问题分析在访问高峰时段会出现个别用户无法访问的情况,查看服务器性能和网络性能均无异常。

4.2故障排除 流量限制是NGNIX非常有用的功能之一,当访问量较大时NGNIX可以进行限流以避免业务宕机,还可以出于安全的目的使用,如降低暴力破解的攻击速率,降低自动化脚本爬虫的速度,防范DDOS攻击等。排查发现出现访问慢的情况之前,个别内部请求有503报错,此为NGNIX限流策略拦截。NGNIX限流未设置好白名单,导致服务器内部之间的正常访问被阻断,出现503报错。

基于流量分析的网络故障分析思路与典型案例分享

4.3防范措施设置NGNIX策略需要梳理清楚业务访问关系,设置好白名单避免误伤。

某一类URL访问慢或者某一类设备的访问慢,往往造成了业务整体访问慢。

有问题欢迎加我微信交流
基于流量分析的网络故障分析思路与典型案例分享

原文始发于微信公众号(小话安全):基于流量分析的网络故障分析思路与典型案例分享

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年5月29日11:00:53
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   基于流量分析的网络故障分析思路与典型案例分享https://cn-sec.com/archives/4109120.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息