2022年5月11日10:47:12评论34 views字数 1282阅读4分16秒阅读模式

0x00 前言

通过上文的内容，已经把博客文章的标题及目录爬取下来了，接下来为了方便数据的保存，我们可以把这些文章的标题及目录给包装成一个数据项，也就是 items。

0x01 配置 item

先来到 items.py 文件下，对标题及目录的信息进行包装，为了对这些信息进行区别，还需要有一个 id，所以代码如下：


class TeamssixItem(scrapy.Item):    _id = scrapy.Field()    title = scrapy.Field()    list = scrapy.Field()

编辑好 items.py 文件后，来到 teamssix_blog_spider.py 先把刚才编辑的内容引用进来。
from teamssix.items import TeamssixItem

接着创建一个 item ，并抛出 item ，这时这个 item 就会进入到 item pipelines 中处理。
item = TeamssixItem(_id = response.url,title = title,list = list)yield item

0x02 运行
程序中包含 item 的好处就在于可以直接把运行结果输出到文件中，直接 -o 指定导出文件名，scrapy 支持导出 json 、jsonlines 、jl 、csv 、xml 、marshal 、pickle 这几种格式。
scrapy crawl blogurl -o result.json

另外如果发现导出文件乱码，只需要在 settings.py 文件中添加下面一行代码即可。
FEED_EXPORT_ENCODING = "gb18030"

运行结果如下：
~# scrapy crawl blogurl -o result.json~# cat result2.json[{"_id": "https://www.teamssix.com/year/191224-093319.html", "title": "【Python Scrapy 爬虫框架】 2、利用 Scrapy 爬取我的博客文章标题链接", "list": ["0x00 新建项目", "0x01 创建一个爬虫", "0x02 运行爬虫", "0x03 爬取内容解析"]},{"_id": "https://www.teamssix.com/year/191127-201447.html", "title": "【漏洞笔记】Robots.txt站点文件", "list": ["0x00 概述", "0x01 漏洞描述", "0x02 漏洞危害", "0x03 修复建议"]},……省略……

可以很明显的感受到使用 scrapy 可以很方便的将数据导出到文件中，下一篇文章将介绍如何导出到 MongoDB数据库中。

参考链接：
https://youtu.be/aDwAmj3VWH4
http://doc.scrapy.org/en/latest/topics/architecture.html


往期推荐
3、利用 Scrapy 爬取博客文章详细信息

2、利用 Scrapy 爬取我的博客文章标题链接

1、Scrapy的简介与安装






原文始发于微信公众号（TeamsSix）：Python Scrapy 爬虫框架 | 4、数据项介绍和导出文件

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

0x02 运行

Perl 语言基础入门

Rust标准黑客工具设计实现分析

插件前台任意文件读取漏洞复现与分析 (CVE-2025-2294)

汇编语言Day07

JavaWeb代码审计实战开源系统学习心得

【知识回顾】RedTeam 工具开发原则 - 基础知识

脚本小子进阶之路——Shell编程简介

javaFx 教程二

实战某凤网站导致的代码审计

【0day】泛微OA前台登录绕过+后台组合拳RCE

发表评论

在线咨询

微信