python打造url采集器

admin 2022年5月17日09:55:07评论237 views字数 1749阅读5分49秒阅读模式

声明:该公众号大部分文章来自作者日常学习笔记,也有少部分文章是经过原作者授权和其他公众号白名单转载,未经授权,严禁转载,如需转载,联系刘一手
请勿利用文章内的相关技术从事非法测试,如因此产生的一切不良后果与文章作者和本公众号无关。仅供学习研究

运行环境

python3

模块:requests,re,time

bing搜索

https://cn.bing.com/
python打造url采集器
image.png

随意搜索关键字,看到search?q=关键字

https://cn.bing.com/search?q=%E6%88%91&qs=n&form=QBRE&sp=-1&pq=%E6%88%91&sc=8-1&sk=&cvid=B6DA025C36914E38B22A556E15D1CB06

python打造url采集器再看看第二页 发现多了一个first=10,可以发现一页就会多10

https://cn.bing.com/search?q=%e6%88%91&qs=n&sp=-1&pq=%e6%88%91&sc=8-1&sk=&cvid=B6DA025C36914E38B22A556E15D1CB06&first=10&FORM=PERE

python打造url采集器通过简化得到如下url

https://cn.bing.com/search?q=%E6%88%91&first=10
python打造url采集器
image.png

使用python去进行请求第一页,得到如下python打造url采集器浏览器上进行查看python打造url采集器发现行的通

正则进行提取

<cite>(.*?)</cite>


python打造url采集器成功进行提取

多页面爬取

python打造url采集器发现每个页面都是爬取的差不多的内容python打造url采集器通过burp抓包进行分析 发现需要cookiepython打造url采集器将无用的cookie信息进行去除 发现只需要Cookie: SUID=M; _EDGE_V=1; 效果还可以python打造url采集器python打造url采集器python进行爬取去掉重复的url 还可能会存在或者字样python打造url采集器去掉就可保存到url.txt中即可

完整代码如下

import requests,re,time

urls=[]
search=input('输入要爬去的关键字:')
page=input('输入要爬取的页数:')
time_bing=input('输入每页间隔的时间:')
time_bing=int(time_bing)
page=int(page)
headers = {
'Host': 'cn.bing.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0',
'Cookie': 'SUID=M;_EDGE_V=1;'
}
for i in range(0,page):
time.sleep(time_bing)
first=i*10
url='https://cn.bing.com/search?q=%s&first=%s'%(search,first)
print(f'正在爬取第{i+1}页')
r=requests.get(url=url,headers=headers)
find_url=re.findall(r'<cite>(.*?)</cite>',r.text)
print(url)
print(find_url)
for u in find_url:
urls.append(u)
tmp = list(set(urls))
tmp.sort(key=urls.index)

for uu in urls:
if '<cite>' in uu:
uu=uu.replace('<cite>','')
if '</cite>' in uu:
uu=uu.replace('</cite>','')
uu=uu+'n'
if 'http' not in uu:
uu='http://'+uu
f=open('bing_url.txt','a+').write(uu)

print('已完成')

这里是使用的bing引擎

效果

python打造url采集器爬取到的url会保存到bing_url.txt中python打造url采集器


python打造url采集器

python打造url采集器


推荐阅读



干货 | 渗透知识库(鹏组安全)


实战 | 记一次渗透测试(绕过某塔)


免杀 | mimikatz.exe bypass360全家桶




好文分享收藏赞一下最美点在看哦

原文始发于微信公众号(鹏组安全):python打造url采集器

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年5月17日09:55:07
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   python打造url采集器https://cn-sec.com/archives/1013801.html

发表评论

匿名网友 填写信息