Python安全开发第五章(爬虫)

admin 2022年3月17日03:20:20评论91 views字数 1383阅读4分36秒阅读模式
前言


    本章是Python完结系列了,如需看往期文章如下操作

Python安全开发第五章(爬虫)



1.模块的使用

    在众多编程语言中,都有了模块的概念,模块就是用来实现某些功能的,例如在C++中,OpenProcess,CreateFile等函数,都是用的Windows.h头文件这个模块,可以理解为这个模块提供了这些函数及功能。

    而在Python中,我们要用的模块是requests库,requests库是最简单易懂的http库,比如 get post请求等,都可以用到。

    关于模块的安装这里不做介绍,具体可以看网上的文章:

https://blog.csdn.net/huavhuahua/article/details/83898883


2.requests库的使用

    安装好requests库之后,在文件进行导入requests库

    import 库名

import requests

    然后看一下requests库的常用用法,requests.get(url),就是以一个get方式来访问这个url。post put等方法同理。

import requestsrequests.get(url)requests.post(url)requests.put(url)requests.delete(url)

       接下来通过get方式访问一个网站试一下,requests.get访问127.0.0.1之后返回一个结果保存到了response中,这个输出结果将是

<Response [200]>,返回的是状态码。那么如何获取网页源代码呢,在response.text即可获取网页源代码内容

import requestsurl = "http://127.0.0.1/"response = requests.get(url)print(response)print(response.text

Python安全开发第五章(爬虫)

    下面的话,是一些常用的操作:

print(response.status_code)  # 打印状态码print(response.url)          # 打印请求urlprint(response.headers)      # 打印头信息print(response.cookies)      # 打印cookie信息print(response.text)  #以文本形式打印网页源码print(response.content) #以字节流形式打印

    继续往下看,很多漏洞都与http header头有关联,那么如何在访问的时候加上header的头呢?看下方代码,这样即可使用我们的header头。

    requests.get("URL",header=定义的header头)

import requestsheads = {}heads['User-Agent'] = 'Mozilla/5.0 '                           '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 '                           '(KHTML, like Gecko) Version/5.1 Safari/534.50' response = requests.get('http://www.baidu.com',headers=headers)

    这里简单讲解了几个常用的函数,在后续开发中可以自行查找。


本文始发于微信公众号(安全族):Python安全开发第五章(爬虫)

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年3月17日03:20:20
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   Python安全开发第五章(爬虫)http://cn-sec.com/archives/532214.html

发表评论

匿名网友 填写信息