信息收集经常用到的一个工具是搜索引擎。所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
搜索引擎是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。目前搜索引擎已经发展到第四代搜索引擎,主要采用特征提取和文本智能化等策略。
1.2.1搜索引擎工作原理
搜索引擎原理(Principle of Search Engine),搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。
1.2.2网站内容爬取
为了提升网站的访问量,一般网站都会有一个robots文件,通常位于网站根目录,例如https://www.baidu.com/robots.txt,在这个目录会定义哪些允许爬取,那些禁止爬取。Disallow后的目录表示禁止。
图1 robots.txt内容结构
除了通过robots文件进行内容爬取外,也有一些基于人工智能的脚本,自动对网站内容进行爬取,例如根据xml文件结构等,通过python脚本爬取,将爬取的内容进行入库并提供再次检索。另外基于舆情的内容监控系统,完整或者部分获取所有网页内容,然后根据预设关键字进行预警和报警。
1.2.3国内外常见的一些搜索引擎
前面简单的介绍了搜索引擎基本常识,对于信息收集,利用搜索引擎主要有两个方面,一个知道有哪些搜索引擎,另外一方面就是要知道语法。在搜索时可以交叉使用。目前在开源社区也有直接将所有搜索引擎集合在一起,直接输入域名信息一键获取所有的信息。
1.百度搜索
https://www.baidu.com/
2.必应搜索
https://cn.bing.com/
3.360搜索
https://www.so.com/?src=www&fr=none
4.搜狗搜索
https://www.sogou.com/
搜索的微信公众号搜索不错
https://weixin.sogou.com/
5.爱问共享资料搜索
https://ishare.iask.sina.com.cn/
6.神马搜索,手机端搜索
https://m.sm.cn/
7.知网学术搜索(可以获取系统架构、网络架构、作者等重要信息)
https://www.cnki.net/
8.文书网(最近不好用,搜索无效果,查询既往判例)
https://wenshu.court.gov.cn/
9.头条搜索
so.toutiao.com
10 有道搜索
https://www.youdao.com/
11.中国搜索
https://www.chinaso.com/
12.F搜索
https://whereisf.com/
13.Ecosia搜索结果来自于Bing和Yahoo
https://www.ecosia.org/
14.searxng
searxng 一个尊重隐私、可二次开发的元搜索引擎。
https://searx.tiekoetter.com/
15.Magi
Magi AI 驱动的知识引擎。能够直接用其从互联网学到的知识回答问题。
https://magi.com/
16.naver 韩国的一款搜索引擎
https://www.naver.com/
17.无追搜索
https://www.wuzhuiso.com/
18. 一个好用的"程序员搜索"goobe
https://goobe.io/
19. 来自俄罗斯的一款搜索引擎yandex
https://yandex.com/
20.Qwant
https://www.qwant.com/
21.searchencrypt
https://www.searchencrypt.com/home
备注:国外的有些搜索引擎可能需要翻墙才能访问。
1.2.4 搜索引擎的UA
1、百度 www.baidu.com
PC端:
Mozilla/5.0(compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
移动端:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
2、360搜索 www.so.com
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider
3、必应搜索 www.bing.com
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
4、头条搜索 so.toutiao.com
Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML,like Gecko)Chrome/41.0.6633.1032 Mobile Safari/537.36;Bytespider;
5、神马搜索 m.sm.cn
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e YisouSpider/5.0 Safari/602.1
6、谷歌搜索 www.google.com
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
7、Yandex 俄罗斯的搜索引擎
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
8.其他的一些
百度网页搜索 User-agent
Baiduspider
无线搜索 User-agent
Baiduspider-mobile
图片搜索User-agent
Baiduspider-image
视频搜索 User-agent
Baiduspider-video
新闻搜索 User-agent
Baiduspider-news
百度收藏 User-agent
Baiduspider-favo
百度联盟 User-agent
Baiduspider-cpro
谷歌User-agent
Googlebot
MSN User-agent
MSNBot
有道User-agent
YoudaoBot
搜狗User-agent
Sogou inst spider
Sogou spider2
Sogou blog
Sogou News Spider
Sogou Orion spider
即刻User-agent
JikeSpider
搜搜User-agent
Sosospider
360User-agent
360Spider
百度爬虫,第二条为百度图片爬虫
Baiduspider+(+http://www.baidu.com/search/spider.htm")
Baiduspider-image
google爬虫,最后一条为google图片搜索爬虫
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot-Image/1.0
即刻搜索爬虫
Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)
雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html")
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp")
新浪爱问爬虫
iaskspider/2.0(+http://iask.com/help/help_index.html")
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
搜狗爬虫,第三条为搜狗图片爬虫
Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
搜搜爬虫
Sosospider+(+http://help.soso.com/webspider.htm)
网易有道爬虫
Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )
MSN爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
参考文献
1. https://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/104812
2. https://blog.csdn.net/qq_42430287/article/details/124376236
原文始发于微信公众号(小兵搞安全):国内外常见搜索引擎(信息收集系列文章之二)
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论