提示!本文章仅供学习交流,严禁用于非法用途,文章如有不当可联系本人删除!
目录
-
一、如何区分是最新瑞数vmp反爬
-
二、3/4/5/6代/vmp版本的瑞数网站特征举例
-
三、瑞数反爬的解决思路
-
四、推荐相关瑞数文章
一、如何区分是最新瑞数vmp反爬
1、前言:本篇文章不会介绍详细的解决反爬的算法扣代码过程
,只是一些经验闲谈思路闲谈,文章的末尾有相关的好的质量的文章分享,可以移步查看,更多算法思路可以直接看时光的文章某数新版VMP反爬
2、网站特征:首次请求网页状态码返回202/412 是什么反爬, 基本可以确定这个网站是瑞数反爬
3、最新vmp版的瑞数反爬(大约上线于2022年4月1号,之后的改版不大,算法基本没有动过):客户端返回的cookie没有数字
或者 202/412响应源码里面有如下内容$_ts.nsd
或者 打开f12直接在跳出的js里面搜索<= 63
,也可以判断出来它是最新版本的瑞数vmp
4、瑞数vmp反爬解决的方案有很多,在早期我第一次遇到的时候大概是2022年7月份左右,当时一个大佬教了我补环境版本的瑞数,那也是我第一次看了志远b站二期补环境最后八节课,只能说真的很强,一套环境几乎所有网站的瑞数vmp版本通用了,真的只能说瑞数反爬在补环境面前不值一提
,很快就被补环境大佬们一下子给破了,通用上手快,由衷的佩服;但是当时补环境由于我学的太弱了,始终过不了专利事务页面的详情,所以后来萌生了一定要把瑞数算法给研究出来的想法
5、研究算法的行动:然后找了各方未研究出来瑞数vmp算法的,并且当前时间有强烈兴趣的,且最近打算研究的人,大概6个人左右,利用空闲时间,在我的牵头作用下,大家一起合作,最终在2022年9月份的时候成功把瑞数vmp版本算法还原,最终算法代码约1.2k行,后来在11月份左右把各个网站的不同算法版本比较了下,修改特殊的参数模板,基本可以使得cookie算法通用了,而后缀签名各个网站明文参数大多不一样,所以也没法实现通用性,但大多也是一样的逻辑,修改特殊的流程逻辑也可通用。而补环境/算法至今一整年快过去了没改动无反爬,仅仅测试了专利网站
6、当时我
研究的差不多把整个代码流程都扣完了,大多数扣代码算法就是和之前四代/五代差不多,剩下的难点就是四位数组/八位数组/toString函数数字的由来
;这时候大多数人也加入了战斗,把我剩下的来不及研究的难点分工研究了,还记得时光
解决了进入vm之前的部分,那前半部部分生成vm的js代码,在后面计算中会取一些函数toString加入算法中,记得周周周
研究了八位数组,后来是理想哥
教了八位数组的一个更简便的方法,然后李成功
找到了四位数组的映射关系;当然最不能忘记的是周军威
一开始用ast还原了瑞数平坦化(vmp并没有用ast还原,我们使用的依然是插桩流程),这使得我们那时候调试插桩研究扣代码的效率大大提高
7、早期一开始扣代码的逻辑,一个一个逆推,往上推到的逻辑
8、最终整理完的代码主流程逻辑,关于细节我就不多介绍了,可太难讲清楚了,详细的大家也可以移步到时光的文章 瑞数vmp算法还原流程分析 进一步研究, 以及文章末尾的推荐文章查看
二、3/4/5/6代/vmp版本的瑞数网站特征举例
可能我介绍的辨别方式不太通用,但大多数可以这么看,也可直接到我的b站视频看https://www.bilibili.com/video/BV1VV4y187fy/
1、【3代】瑞数反爬网站https://www.cde.org.cn/main/news/listpage/3cc45b396497b598341ce3af000490e5
2、【4代】瑞数反爬网站http://www.fangdi.com.cn/new_house/new_house_list.html
3、【5代】瑞数反爬网站 http://www.nhc.gov.cn/wjw/gfxwjj/list.shtml 或者http://www.xldbidding.com.cn/002/jyxx.html 区分是5代的哪个小版本,可以正则搜索S{4} = S{4}[S{4}[d{2}]](S{4}, S{4})
以下区分5代小版本的办法,图片取自k哥公众号,清缓存,打script断点,正则搜索定位
5、【6代】瑞数反爬网站 https://www.urbtix.hk/
6、【vmp版本】瑞数反爬网站 http://epub.cnipa.gov.cn/ 或者http://credit.customs.gov.cn/ccppwebserver/pages/ccpp/html/ccppindex.html
三、瑞数反爬的解决思路
1、当需要爬取数据的时候,先用selenium的方式把数据跑起来,然后再继续尝试其它的方式,一步一步优化,我当时就是按这四个步骤走的
1、selenium自动化的方式,比如远程代理浏览器端口,比如undetected_chromedriver,数据量大高并发的时候不推荐,可以应急用
2、jsrpc+自动刷新网页油猴插件获取cookie的方式可以,数据量大高并发的时候不推荐,可以应急用 https://www.6hu.cc/archives/138661.html
3、补环境的方式推荐,推荐基本通用,上手快,兼容各个网站,推荐git上的大佬们的
4、算法逆向的方式,推荐耗时长,也基本可以兼容各个网站;但是最好会ast还原把js代码简化下,然后就直接插桩打日志就可以了,哦对了,之前删的vmp的抖音文章昨天刚重新发出来了,可以看看思路基本一致
四、推荐相关瑞数文章
1、瑞数vmp算法
-
https://zhuanlan.zhihu.com/p/566602584?utm_id=0
-
https://blog.csdn.net/weixin_44772112/article/details/127186409
2、瑞数vmp补环境
-
https://blog.csdn.net/weixin_44862184/article/details/131231036
3、瑞数4代算法
4、瑞数4代补环境
-
https://blog.csdn.net/qq_36291294/article/details/128600583
-
https://blog.csdn.net/m0_51159233/article/details/124619273
-
https://blog.csdn.net/qq_37438485/article/details/117357295
5、瑞数5代算法:
6、瑞数5代补环境
-
https://blog.csdn.net/weixin_44862184/article/details/125302589
7、瑞数3代自动化:
-
https://blog.csdn.net/BTTBHT/article/details/131046825
8、补环境框架:github上有很多大佬开源的框架,可以直接过瑞数,可自行尝试查找
9、结尾:打个广告,需要akm,shape,谷歌v2,v3,5S盾,x82y等以及国内所有滑块验证码,深度学习模型等,均可加五月微信:ruomengbanli
10、对了,最近我建了个交流群,如需要进群,也可以加我微信:Vskzxc 备注公众号进群
原文始发于微信公众号(逆向OneByOne):js逆向思路-区分瑞数vmp/6/5/4/3反爬
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论