2022年5月17日09:55:07评论267 views字数 1749阅读5分49秒阅读模式

声明：该公众号大部分文章来自作者日常学习笔记，也有少部分文章是经过原作者授权和其他公众号白名单转载，未经授权，严禁转载，如需转载，联系刘一手

请勿利用文章内的相关技术从事非法测试，如因此产生的一切不良后果与文章作者和本公众号无关。仅供学习研究

运行环境

python3

模块：requests,re,time

bing搜索

https://cn.bing.com/

随意搜索关键字，看到search?q=关键字

https://cn.bing.com/search?q=%E6%88%91&qs=n&form=QBRE&sp=-1&pq=%E6%88%91&sc=8-1&sk=&cvid=B6DA025C36914E38B22A556E15D1CB06

python打造url采集器再看看第二页发现多了一个first=10，可以发现一页就会多10

https://cn.bing.com/search?q=%e6%88%91&qs=n&sp=-1&pq=%e6%88%91&sc=8-1&sk=&cvid=B6DA025C36914E38B22A556E15D1CB06&first=10&FORM=PERE

python打造url采集器通过简化得到如下url

https://cn.bing.com/search?q=%E6%88%91&first=10

使用python去进行请求第一页，得到如下 python打造url采集器浏览器上进行查看发现行的通

正则进行提取

<cite>(.*?)</cite>

python打造url采集器成功进行提取

多页面爬取

python打造url采集器发现每个页面都是爬取的差不多的内容通过burp抓包进行分析发现需要cookie将无用的cookie信息进行去除发现只需要Cookie: SUID=M; _EDGE_V=1; 效果还可以python进行爬取去掉重复的url 还可能会存在或者字样去掉就可保存到url.txt中即可

完整代码如下

import requests,re,time

urls=[]
search=input('输入要爬去的关键字:')
page=input('输入要爬取的页数:')
time_bing=input('输入每页间隔的时间:')
time_bing=int(time_bing)
page=int(page)
headers = {
    'Host': 'cn.bing.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0',
    'Cookie': 'SUID=M;_EDGE_V=1;'
}
for i in range(0,page):
    time.sleep(time_bing)
    first=i*10
    url='https://cn.bing.com/search?q=%s&first=%s'%(search,first)
    print(f'正在爬取第{i+1}页')
    r=requests.get(url=url,headers=headers)
    find_url=re.findall(r'<cite>(.*?)</cite>',r.text)
    print(url)
    print(find_url)
    for u in find_url:
        urls.append(u)
tmp = list(set(urls))
tmp.sort(key=urls.index)

for uu in urls:
    if '<cite>' in uu:
        uu=uu.replace('<cite>','')
    if '</cite>' in uu:
        uu=uu.replace('</cite>','')
    uu=uu+'n'
    if 'http' not in uu:
        uu='http://'+uu
    f=open('bing_url.txt','a+').write(uu)

print('已完成')

这里是使用的bing引擎

效果

python打造url采集器爬取到的url会保存到bing_url.txt中

python打造url采集器

推荐阅读

干货 | 渗透知识库（鹏组安全）

实战 | 记一次渗透测试(绕过某塔)

免杀 | mimikatz.exe bypass360全家桶

原文始发于微信公众号（鹏组安全）：python打造url采集器

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

python打造url采集器

运行环境

bing搜索

正则进行提取

多页面爬取

完整代码如下

效果

极致优化Android平台APK的大小

SDL序列课程-第46篇-安全需求-用户信息使用需求-用户隐私数据的保护和使用策略

记一次难忘的net直播审计

开源 | MeiGen-MultiTalk：基于单张照片实现多人互动演绎

Java 安全 | JBossInterceptors1 & JavassistWeld1 链

Java代码审计第七章-任意文件上传漏洞（上）

PHP基础-数组相关函数

javaFx 安全开发三

『每周译Go』Go 新增模糊测试系统的内部原理

炼石计划之50套JavaWeb代码审计（二）：基于SpringBoot架构的OA系统

发表评论

在线咨询

微信