摘 要
目前网络上存在着海量的数据资料,将这些数据爬取保存下来,并进行进一步操作,即可挖掘出数据的潜在价值。如今的互联网存在的缺陷是用户很难获得有用的数据资料,虽然传统的搜索引擎可以为用户返回大量信息,但是用户需要在庞杂的数据中寻找对自己有用的信息。因此现如今越来越多的平台开始搭建属于自己的数据爬取系统,并在爬取的数据基础上展开服务。本文将会对网络爬虫技术进行概述,并阐述其基本原理。
一
网络爬虫技术概述
二
网络爬虫基本原理
图 1 网络爬虫流程
三
网络爬虫分类
四
网络爬虫与搜索引擎
五
网络爬虫技术的危害
参考文献
[1]Tianyi Ma,Ziyang Zhang. Medical Consultation System based on Python Web crawler[C]//.Proceedings of 2021 2nd International Conference on Electronics, Communications and Information Technology (CECIT 2021).,2021:772-776.DOI:10.26914/c.cnkihy.2021.065511.
[2]Addo Prince Clement,Dorgbefu Jnr. Maxwell,Kulbo Nora Bakabbey,Akpatsa Samuel Kofi,Ohemeng Asare Andy,Dagadu Joshua Caleb,Boansi Kufuor Oliver,Kofi Frimpong Adasa Nkrumah. Video Ads in Digital Marketing and Sales: A Big Data Analytics Using Scrapy Web Crawler Mining Technique[J]. Asian Journal of Research in Computer Science,2021.
[3]Ma Xiaoju,Yan Min. Design and Implementation of Craweper Based on Scrapy[J]. Journal of Physics: Conference Series,2021,2033(1).
[4]Deng Kaiying,Chen Senpeng,Deng Jingwei. On optimisation of web crawler system on Scrapy framework[J]. International Journal of Wireless and Mobile Computing,2020,18(4).
[5]Wang Wei,Yu Lihua. UCrawler: A learning-based web crawler using a URL knowledge base[J]. Journal of Computational Methods in Sciences and Engineering,2021,21(2).
中国保密协会
科学技术分会
长按扫码关注我们
作者:李岳阳 网络与空间安全学院
责编:夏天天
2022年精彩文章TOP5回顾
近期精彩文章回顾
原文始发于微信公众号(中国保密协会科学技术分会):浅谈网络爬虫技术
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论