国内外常见搜索引擎(信息收集系列文章之二)

admin 2022年12月8日18:45:08评论224 views字数 4606阅读15分21秒阅读模式

      信息收集经常用到的一个工具是搜索引擎。所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。

    搜索引擎是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。目前搜索引擎已经发展到第四代搜索引擎,主要采用特征提取和文本智能化等策略。

国内外常见搜索引擎(信息收集系列文章之二)

1.2.1搜索引擎工作原理

搜索引擎原理(Principle of Search Engine),搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。

1.2.2网站内容爬取

为了提升网站的访问量,一般网站都会有一个robots文件,通常位于网站根目录,例如https://www.baidu.com/robots.txt,在这个目录会定义哪些允许爬取,那些禁止爬取。Disallow后的目录表示禁止。

国内外常见搜索引擎(信息收集系列文章之二)

图1 robots.txt内容结构

除了通过robots文件进行内容爬取外,也有一些基于人工智能的脚本,自动对网站内容进行爬取,例如根据xml文件结构等,通过python脚本爬取,将爬取的内容进行入库并提供再次检索。另外基于舆情的内容监控系统,完整或者部分获取所有网页内容,然后根据预设关键字进行预警和报警。

1.2.3国内外常见的一些搜索引擎

前面简单的介绍了搜索引擎基本常识,对于信息收集,利用搜索引擎主要有两个方面,一个知道有哪些搜索引擎,另外一方面就是要知道语法。在搜索时可以交叉使用。目前在开源社区也有直接将所有搜索引擎集合在一起,直接输入域名信息一键获取所有的信息。

1.百度搜索

https://www.baidu.com/

2.必应搜索

https://cn.bing.com/

3.360搜索

https://www.so.com/?src=www&fr=none

4.搜狗搜索

https://www.sogou.com/

搜索的微信公众号搜索不错

https://weixin.sogou.com/

5.爱问共享资料搜索

https://ishare.iask.sina.com.cn/

6.神马搜索,手机端搜索

https://m.sm.cn/

7.知网学术搜索(可以获取系统架构、网络架构、作者等重要信息)

https://www.cnki.net/

8.文书网(最近不好用,搜索无效果,查询既往判例)

https://wenshu.court.gov.cn/

9.头条搜索

so.toutiao.com

10 有道搜索

https://www.youdao.com/

11.中国搜索

https://www.chinaso.com/

12.F搜索

https://whereisf.com/

13.Ecosia搜索结果来自于Bing和Yahoo

https://www.ecosia.org/

14.searxng

searxng 一个尊重隐私、可二次开发的元搜索引擎。

https://searx.tiekoetter.com/

15.Magi

Magi AI 驱动的知识引擎。能够直接用其从互联网学到的知识回答问题。

https://magi.com/

16.naver 韩国的一款搜索引擎

https://www.naver.com/

17.无追搜索

https://www.wuzhuiso.com/

18. 一个好用的"程序员搜索"goobe

https://goobe.io/

19. 来自俄罗斯的一款搜索引擎yandex

https://yandex.com/

20.Qwant

https://www.qwant.com/

21.searchencrypt

https://www.searchencrypt.com/home

备注:国外的有些搜索引擎可能需要翻墙才能访问。

1.2.4 搜索引擎的UA

1、百度 www.baidu.com

PC端:

Mozilla/5.0(compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移动端:

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

2、360搜索 www.so.com

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider

3、必应搜索 www.bing.com 

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

4、头条搜索 so.toutiao.com 

Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML,like Gecko)Chrome/41.0.6633.1032 Mobile Safari/537.36;Bytespider;

5、神马搜索 m.sm.cn 

Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36

Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e YisouSpider/5.0 Safari/602.1

6、谷歌搜索 www.google.com

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

7、Yandex 俄罗斯的搜索引擎

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

8.其他的一些

百度网页搜索 User-agent

Baiduspider

无线搜索 User-agent

Baiduspider-mobile

图片搜索User-agent

Baiduspider-image

视频搜索 User-agent

Baiduspider-video

新闻搜索 User-agent

Baiduspider-news

百度收藏 User-agent

Baiduspider-favo

百度联盟 User-agent

Baiduspider-cpro

谷歌User-agent

Googlebot

MSN User-agent

MSNBot

有道User-agent

YoudaoBot

搜狗User-agent

Sogou inst spider

Sogou spider2

Sogou blog

Sogou News Spider

Sogou Orion spider

即刻User-agent

JikeSpider

搜搜User-agent

Sosospider

360User-agent

360Spider

百度爬虫,第二条为百度图片爬虫

Baiduspider+(+http://www.baidu.com/search/spider.htm")

Baiduspider-image

google爬虫,最后一条为google图片搜索爬虫

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot-Image/1.0

即刻搜索爬虫

Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)

雅虎爬虫(分别是雅虎中国和美国总部的爬虫)

Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html")

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp")

新浪爱问爬虫

iaskspider/2.0(+http://iask.com/help/help_index.html")

Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

搜狗爬虫,第三条为搜狗图片爬虫

Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

搜搜爬虫

Sosospider+(+http://help.soso.com/webspider.htm)

网易有道爬虫

Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )

MSN爬虫

msnbot/1.0 (+http://search.msn.com/msnbot.htm)

参考文献

1. https://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/104812

2. https://blog.csdn.net/qq_42430287/article/details/124376236


原文始发于微信公众号(小兵搞安全):国内外常见搜索引擎(信息收集系列文章之二)

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年12月8日18:45:08
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   国内外常见搜索引擎(信息收集系列文章之二)http://cn-sec.com/archives/1447446.html

发表评论

匿名网友 填写信息