Web Scraper：不用写代码的爬虫插件

admin

102421
文章

87
评论

2024年1月7日21:40:43评论22 views字数 959阅读3分11秒阅读模式

最近帮小伙伴下载某学习网站的视频。需要对页面内的数据做一次性的抓取。对于是一次性的抓取需要，能不写代码就不写代码，就用 web scraper 这个浏览器插件进行链接抓取。

插件安装

下载链接：

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn

Web Scraper：不用写代码的爬虫插件

需求分析

需求很简单，要抓取两个页面

Web Scraper：不用写代码的爬虫插件

先抓取课程页面中所有视频页面的链接

Web Scraper：不用写代码的爬虫插件

然后在视频页面的中获取视频的真实链接，这里是用的阿里云的 oss

这么简单的抓取，写代码太浪费时间，手动复制又太麻烦。这种场景用插件抓取数据再合适不过了。

插件配置

F12 打开控制台，新建一个 sitemap

Web Scraper：不用写代码的爬虫插件

保存后可以预览当前页面被选中的元素

Web Scraper：不用写代码的爬虫插件

以及预览当前的抓取的链接。

获取到一级页面后，需要通过访问抓取的链接去获取视频 url

Web Scraper：不用写代码的爬虫插件

现在来到视频页面，因为 input 标签是不可见的，所以我们没法像刚才一样通过 select 去获取元素

Web Scraper：不用写代码的爬虫插件

切换到元素 tab，右键复制 selector

Web Scraper：不用写代码的爬虫插件

注意抓取的是标签属性，需要选择 value

Web Scraper：不用写代码的爬虫插件

这里可以看到我们爬虫 selector 的递进关系

开始抓取数据

Web Scraper：不用写代码的爬虫插件

遇到阻碍：referer检测

Web Scraper：不用写代码的爬虫插件

打开第一个页面没有问题，抓取视频页面就会被检测。我搜了下网上的资料，没有解决的办法。

当然 web scraper 本身还不够强大，不支持自定义 header。如果其他人遇到这种情况，估计就算了，不爬了。

但是我仔细想了想，既然 web scraper 的爬虫本身也是用 Chrome 进行抓取的，那么其他 Chrome 的插件也可以生效才对。所以我尝试用 ModHeader 插件手动给他加一个 referer 头上去。

曲线救国：ModHeader 添加referer头

Web Scraper：不用写代码的爬虫插件

果然奏效！

Web Scraper：不用写代码的爬虫插件

成功抓取到数据

Web Scraper：不用写代码的爬虫插件

导出即可

本文作者：zgao原文地址：https://zgao.top/web-scraper%ef%bc%9a%e4%b8%8d%e7%94%a8%e5%86%99%e4%bb%a3%e7%a0%81%e7%9a%84%e7%88%ac%e8%99%ab%e6%8f%92%e4%bb%b6/

原文始发于微信公众号（刨洞安全团队）：Web Scraper：不用写代码的爬虫插件

左青龙
微信扫一扫

右白虎
微信扫一扫

Web Scraper：不用写代码的爬虫插件

插件安装

需求分析

插件配置

开始抓取数据

遇到阻碍：referer检测

曲线救国：ModHeader 添加referer头

实战技巧分享

逃避静态查杀的Webshell脚本：JCE

单洞过W之开发/测试/生产/UAT挖掘思路

记一次通过子域模糊测试识别漏洞并获取高额赏金的经历

记一次0.5day分析

负载均衡的产生与原理、典型的负载均衡器介绍

盘点PHP中的变量覆盖漏洞

某地级市攻防技战术提炼

密码、密钥和熟悉度偏差

Windows提权—数据库提权-mysql提权&mssql提权&Oracle数据库提权

发表评论

在线咨询

微信