Web Scraper：不用写代码的爬虫插件

admin

143229
文章

118
评论

2024年1月7日21:40:43评论34 views字数 959阅读3分11秒阅读模式

最近帮小伙伴下载某学习网站的视频。需要对页面内的数据做一次性的抓取。对于是一次性的抓取需要，能不写代码就不写代码，就用 web scraper 这个浏览器插件进行链接抓取。

插件安装

下载链接：

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn

Web Scraper：不用写代码的爬虫插件

需求分析

需求很简单，要抓取两个页面

Web Scraper：不用写代码的爬虫插件

先抓取课程页面中所有视频页面的链接

Web Scraper：不用写代码的爬虫插件

然后在视频页面的中获取视频的真实链接，这里是用的阿里云的 oss

这么简单的抓取，写代码太浪费时间，手动复制又太麻烦。这种场景用插件抓取数据再合适不过了。

插件配置

F12 打开控制台，新建一个 sitemap

Web Scraper：不用写代码的爬虫插件

保存后可以预览当前页面被选中的元素

Web Scraper：不用写代码的爬虫插件

以及预览当前的抓取的链接。

获取到一级页面后，需要通过访问抓取的链接去获取视频 url

Web Scraper：不用写代码的爬虫插件

现在来到视频页面，因为 input 标签是不可见的，所以我们没法像刚才一样通过 select 去获取元素

Web Scraper：不用写代码的爬虫插件

切换到元素 tab，右键复制 selector

Web Scraper：不用写代码的爬虫插件

注意抓取的是标签属性，需要选择 value

Web Scraper：不用写代码的爬虫插件

这里可以看到我们爬虫 selector 的递进关系

开始抓取数据

Web Scraper：不用写代码的爬虫插件

遇到阻碍：referer检测

Web Scraper：不用写代码的爬虫插件

打开第一个页面没有问题，抓取视频页面就会被检测。我搜了下网上的资料，没有解决的办法。

当然 web scraper 本身还不够强大，不支持自定义 header。如果其他人遇到这种情况，估计就算了，不爬了。

但是我仔细想了想，既然 web scraper 的爬虫本身也是用 Chrome 进行抓取的，那么其他 Chrome 的插件也可以生效才对。所以我尝试用 ModHeader 插件手动给他加一个 referer 头上去。

曲线救国：ModHeader 添加referer头

Web Scraper：不用写代码的爬虫插件

果然奏效！

Web Scraper：不用写代码的爬虫插件

成功抓取到数据

Web Scraper：不用写代码的爬虫插件

导出即可

本文作者：zgao原文地址：https://zgao.top/web-scraper%ef%bc%9a%e4%b8%8d%e7%94%a8%e5%86%99%e4%bb%a3%e7%a0%81%e7%9a%84%e7%88%ac%e8%99%ab%e6%8f%92%e4%bb%b6/

原文始发于微信公众号（刨洞安全团队）：Web Scraper：不用写代码的爬虫插件

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Web Scraper：不用写代码的爬虫插件

插件安装

需求分析

插件配置

开始抓取数据

遇到阻碍：referer检测

曲线救国：ModHeader 添加referer头

driftingblues

域渗透系列 - 通过 SMB 进行Kerberos Relay

【挖洞之旅】一种验证码爆破漏洞的全新思路 | 简单实用

Tomcat Ajp协议漏洞

AMSI简介及绕过方法总结

打靶日记 VulnHub靶机 Tr0ll 1

城堡的小门：v8类型混淆漏洞CVE-2024-4761分析

将你的 Word 武器化——恶意模板注入

Lorenzo Meacci的高级初始访问技术

第一部分：Silver Fox APT （银狐）滥用 Philips DICOM Viewer 来传播用于后门访问的 RAT

发表评论

在线咨询

微信