【开放下载】：网页内容抽取器

admin

146375
文章

119
评论

2022年9月23日15:15:14评论39 views字数 597阅读1分59秒阅读模式

记得以前，介绍过这个小工具，没什么技术含量，当时只是为了解决一个小问题：提取网页中指定内容而写的，可以见《网页内容抽取器》。

这个小工具源码不足百行，但它背后的解析器约有2000多行，所以看着挺萌的。

幕后是HTML解析器在支撑，解析器就是将html标识解析为解析树，从而将网页层层分解，就象F12那样。

关于html解析器，可以参看这篇文章:《解析-HTML 解析器》https://juejin.cn/post/6844903780119478285

【开放下载】：网页内容抽取器

HTML是结构化文档(Structured Document)，由诸多标签（<p>等）嵌套形成的著名的文档对象模型（DOM, Document Object Model），是显而易见的树形多层次结构。如果带着这种思路看待HTML、编写HTML解析器，无疑将导致问题复杂化。不妨从另一视角俯视HTML文本，视其为一维线状结构：诸多单一节点的顺序排列。仔细审视任何一段HTML文本，以左右尖括号（<和>）为边界，会发现HTML文本被天然地分割为：一个标签（Tag），接一段普通文字，再一个标签，再一段普通文字……所以，提供了一组筛选器来自由应对。

工具虽小，实用，精悍！

链接：https://pan.baidu.com/s/1I-4c3apATN0DXmfOdxczHw

提取码：ir2c

原文始发于微信公众号（MicroPest）：【开放下载】：网页内容抽取器

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【开放下载】：网页内容抽取器

工具推荐 HackBrowserData

联想内部工具箱！包含98款实用工具！秒杀一切神器！

Kali Linux 最佳工具之Skipfish简介与方法

Zygisk注入器 - 动动手指轻松注入并隐藏你的SO文件

手把手教你快速上手yakit热加载技能

Unauthorized-Vul【最全未授权访问漏洞批量检测工具】

文件上传绕过FuzzGUI工具可视化Fuzz一键生成百种绕过Payload

QaFuzz：关于测试域名的漏洞挖掘工具

关于信息收集工具转子女神的逆向

🚨🎯 工具推荐 | S3Scanner：

发表评论

在线咨询

微信