声明:该公众号大部分文章来自作者日常学习笔记,也有少部分文章是经过原作者授权和其他公众号白名单转载,未经授权,严禁转载,如需转载,联系刘一手
请勿利用文章内的相关技术从事非法测试,如因此产生的一切不良后果与文章作者和本公众号无关。仅供学习研究
运行环境
python3
模块:requests,re,time
bing搜索
https://cn.bing.com/
随意搜索关键字,看到search?q=关键字
https://cn.bing.com/search?q=%E6%88%91&qs=n&form=QBRE&sp=-1&pq=%E6%88%91&sc=8-1&sk=&cvid=B6DA025C36914E38B22A556E15D1CB06
再看看第二页 发现多了一个first=10,可以发现一页就会多10
https://cn.bing.com/search?q=%e6%88%91&qs=n&sp=-1&pq=%e6%88%91&sc=8-1&sk=&cvid=B6DA025C36914E38B22A556E15D1CB06&first=10&FORM=PERE
通过简化得到如下url
https://cn.bing.com/search?q=%E6%88%91&first=10
使用python去进行请求第一页,得到如下浏览器上进行查看
发现行的通
正则进行提取
<cite>(.*?)</cite>
成功进行提取
多页面爬取
发现每个页面都是爬取的差不多的内容
通过burp抓包进行分析 发现需要cookie
将无用的cookie信息进行去除 发现只需要Cookie: SUID=M; _EDGE_V=1; 效果还可以
python进行爬取去掉重复的url 还可能会存在或者字样
去掉就可保存到url.txt中即可
完整代码如下
import requests,re,time
urls=[]
search=input('输入要爬去的关键字:')
page=input('输入要爬取的页数:')
time_bing=input('输入每页间隔的时间:')
time_bing=int(time_bing)
page=int(page)
headers = {
'Host': 'cn.bing.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0',
'Cookie': 'SUID=M;_EDGE_V=1;'
}
for i in range(0,page):
time.sleep(time_bing)
first=i*10
url='https://cn.bing.com/search?q=%s&first=%s'%(search,first)
print(f'正在爬取第{i+1}页')
r=requests.get(url=url,headers=headers)
find_url=re.findall(r'<cite>(.*?)</cite>',r.text)
print(url)
print(find_url)
for u in find_url:
urls.append(u)
tmp = list(set(urls))
tmp.sort(key=urls.index)
for uu in urls:
if '<cite>' in uu:
uu=uu.replace('<cite>','')
if '</cite>' in uu:
uu=uu.replace('</cite>','')
uu=uu+'n'
if 'http' not in uu:
uu='http://'+uu
f=open('bing_url.txt','a+').write(uu)
print('已完成')
这里是使用的bing引擎
效果
爬取到的url会保存到bing_url.txt中
推荐阅读
免杀 | mimikatz.exe bypass360全家桶
原文始发于微信公众号(鹏组安全):python打造url采集器
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论