2023年3月16日13:05:21评论28 views字数 2160阅读7分12秒阅读模式

高质量的安全文章，安全offer面试经验分享

尽在 # 掌控安全EDU #

作者：掌控安全-yuyalinnb

1.安装和简介

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架。
原理图：

爬虫之scrapy基础
简单来说，先去spiders拿url，再转到引擎，再给其他的模块传来传去。

我自己是linux安装，windows安装很麻烦

sudo apt-get install libxml2-dev libxslt-dev python-dev
pip install lxml
sudo apt-get install python-dev python-pip libxml2-dev zlib1g-dev libffi-dev libssl-dev
pip install Scrapy
apt-get install python3-scrapy

这几条都可以试试，毕竟安装这个东西很玄学。
输入scrapy后出现这个就是下载好了:

└─# scrapy
Scrapy 2.7.1 - no active project
Usage:
  scrapy <command> [options] [args]
Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy
[ more ]      More commands available when run from project directory
Use "scrapy <command> -h" to see more info about a command

2.文件作用

创建项目：

scrapy startproject <项目名字>

框架结构：

tree <项目名字>
myspider
├── __init__.py
├── items.py
├── middlewares.py
├── pipelines.py -->管道 保存数据
├── settings.py --> 设置文件 ua 启动管道
└── spiders -->自定义
└── __init__.py

先来看看scrapy.cfg
settings是详细设置
deploy部署应用于项目部署

爬虫之scrapy基础

爬虫之scrapy基础
items.py 模版类，定义数据存储模型

爬虫之scrapy基础
middlewsres 中间件模块，一般不用编写。

爬虫之scrapy基础
pipelines 数据清洗或保存

爬虫之scrapy基础

3. 创建爬虫

在项目目录下执行：

cd example
scrapy genspider example example.com

新的框架结构
爬虫之scrapy基础

爬虫之scrapy基础
首先继承了一个类，name是爬虫的名字，allowed_domain是允许的域名，意思是只爬取这个域名的信息，start_urs起始url是bbs.zkaq.cn。

parse方法中response是请求bbs对应的响应。
运行爬虫：

scrapy crawl zkaq --nolog

—nolog:去除日志，只得到结果。
我之前有一篇爬取所有帖子名字的文章，这里直接把当时的xpath放到parse方法里。

爬虫之scrapy基础
这里用的是response的xpath方法，返回一个列表，操作和列表一样，但是有两个别的方法：

extarct(): 返回一个带有字符串的列表
extarct_first()：返回列表的第一个字符串，没有时返回none。

用上面的指令运行：

爬虫之scrapy基础
一点vim知识（我不太会linux）：

i 进入编辑模式
ESC 退出模式
:wq 保存并退出

4.保存数据

利用管道(pipelines)对数据进行处理和保存。

定义一个管道类
重写process_item方法
process_item处理完后返回给引擎
实际上是，spiders给引擎，引擎给pipeline

在settings.py中，把管道注释删除,这一步叫做启动管道。

爬虫之scrapy基础
管道执行顺序：

ITEM_PIPELINES = {
'myspider.pipelines.MySpiderPipeline': 299,
'myspider.pipelines.MySpiderPipeline': 300,
}

则299先执行。
在zkaq.py中，使用yield把node_list返回给引擎
爬虫之scrapy基础
最后运行爬虫

爬虫之scrapy基础

申明：本公众号所分享内容仅用于网络安全技术讨论，切勿用于违法途径，

所有渗透都需获取授权，违者后果自行承担，与本号及作者无关，请谨记守法.

回顾往期内容

代码审计 | 这个CNVD证书拿的有点轻松

【精选】SRC快速入门+上分小秘籍+实战指南

代理池工具撰写 | 只有无尽的跳转，没有封禁的IP！

爬虫之scrapy基础

扫码白嫖视频+工具+进群+靶场等资料

爬虫之scrapy基础

扫码白嫖！

还有免费的配套靶场、交流群哦

原文始发于微信公众号（掌控安全EDU）：爬虫之scrapy基础

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

爬虫之scrapy基础

1.安装和简介

2.文件作用

3. 创建爬虫

4.保存数据

代理池工具撰写 | 只有无尽的跳转，没有封禁的IP！

php基础-面向对象

极致优化Android平台APK的大小

SDL序列课程-第46篇-安全需求-用户信息使用需求-用户隐私数据的保护和使用策略

记一次难忘的net直播审计

开源 | MeiGen-MultiTalk：基于单张照片实现多人互动演绎

Java 安全 | JBossInterceptors1 & JavassistWeld1 链

Java代码审计第七章-任意文件上传漏洞（上）

PHP基础-数组相关函数

javaFx 安全开发三

『每周译Go』Go 新增模糊测试系统的内部原理

发表评论

在线咨询

微信