Name : Baidu Related Searches Crawler (百度相关搜索抓取工具) Version: 1.0 Author : Nuclear'Atk, url: https://lcx.cc/ Command: word : [必选] 指定初始关键词(抓取该关键词的相关搜索词) -m x : [可选] 抓取到x个关键词后自动停止(默认=1500),推荐! -t x : [可选] 循环抓取x次后自动停止(默认=2),高级功能,慎用! 抓取结果保存至“初始关键词.txt”,覆盖模式。 Example: baidu.exe 中国 抓取和“中国”相关的搜索词(默认抓到1500个词或循环抓取2次后停止) baidu.exe 中国 -m 100 抓取和“中国”相关的搜索词,抓到100个词后停止。 baidu.exe 中国 -t 2 抓取和“中国”相关的搜索词,循环抓取2次后停止。 baidu.exe 中国 -m 100 -t 2 抓取和“中国”相关的搜索词,抓到100个词或循环抓取2次后停止。
一个小程序,自己写来用的,干什么用的,大家都懂,就不介绍了,这里只简单的说一下用法……
程序自带的说明及示例已经比较详细了,这里就讲一下什么是“循环次数”:
首先,程序运行开始时会要求你给一个初始关键词,也叫种子关键词,即:抓取与种子关键词相关的“百度相关搜索”内容,简单点理解就是,假设你去百度搜索某个词,把页面拉到最下端,底端有“相关搜索”,后边有几个相关的关键词,程序抓的就是这个,你搜索的词叫做种子关键词或初始关键词……
平均一个词会扩展小于等于10个的相关搜索词(百度相关搜索位置为小于等于10个),程序把抓到的每个结果(上边说的)再拿去搜索,把搜索的结果保存,然后再把新的结果拿去搜索,再保存,依次循环,循环次数指的就是将这个过程循环多少次,次数越多抓取的词越多……
为什么写的“高级功能,慎用!”?
因为每次循环,抓取的次数、词数都会翻倍,成几何上升,如果你设置的循环次数太大,那么程序就停不下来了,为什么呢?简单的举个例子……
第一次,将种子关键词,拿去搜索,得到10个相关关键词。
第二次,第1次循环,把这10个词再挨个拿去搜索,每个词得到10个相关关键词,最后总计约:10(第一次的)+10*10(第一次的每个词扩展十个)=110个。
第三次,第2次循环,把第二次扩展的100个词,拿去搜索,每个扩展十个,最后得到:10(第一次的)+100(第二次的)+100*10(这次的)=1110个……
第四次,第3次循环,以此类推,约:10 + 100 + 1000 + 1000*10 = 11110 个……
第五次,第4次循环,10 + 100 + 1000 + 10000 + 10000*10 = 111110 个……
第六次,第5次循环,约 1111110 个,数字已经十分庞大了,所以循环次数不要设置太大,建议 2-3 即可……
循环次数太多也没什么用,因为循环次数越多,后来抓取的词与种子关键词相关性越低,最后甚至毫不相关……
达到指定条件、抓取完成后,最后程序会自动过滤重复关键词,只保留唯一数据……
下载地址:
(2013年1月20日,20:47:01:修改一些细节……)
留言评论(旧系统):
文章来源于lcx.cc:Baidu Related Searches Crawler (百度相关搜索抓取工具) v1.0
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论