【开放下载】:网页内容抽取器

admin 2022年9月23日15:15:14评论31 views字数 597阅读1分59秒阅读模式

    记得以前,介绍过这个小工具,没什么技术含量,当时只是为了解决一个小问题:提取网页中指定内容而写的,可以见《网页内容抽取器》。

这个小工具源码不足百行,但它背后的解析器约有2000多行,所以看着挺萌的。

幕后是HTML解析器在支撑,解析器就是将html标识解析为解析树,从而将网页层层分解,就象F12那样。

关于html解析器,可以参看这篇文章:《解析-HTML 解析器https://juejin.cn/post/6844903780119478285

【开放下载】:网页内容抽取器


HTML是结构化文档(Structured Document),由诸多标签(<p>等)嵌套形成的著名的文档对象模型(DOM, Document Object Model),是显而易见的树形多层次结构。如果带着这种思路看待HTML、编写HTML解析器,无疑将导致问题复杂化。不妨从另一视角俯视HTML文本,视其为一维线状结构:诸多单一节点的顺序排列。仔细审视任何一段HTML文本,以左右尖括号(<和>)为边界,会发现HTML文本被天然地分割为:一个标签(Tag),接一段普通文字,再一个标签,再一段普通文字……所以,提供了一组筛选器来自由应对。


工具虽小,实用,精悍!


链接:https://pan.baidu.com/s/1I-4c3apATN0DXmfOdxczHw

提取码:ir2c



原文始发于微信公众号(MicroPest):【开放下载】:网页内容抽取器

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年9月23日15:15:14
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【开放下载】:网页内容抽取器https://cn-sec.com/archives/1310544.html

发表评论

匿名网友 填写信息