Python 下载大文件，哪种方式速度更快

admin

144121
文章

118
评论

2022年10月29日17:07:45评论42 views字数 1609阅读5分21秒阅读模式

点击上方“萝卜大杂烩”，选择“星标”公众号

超级无敌干货，第一时间送达！！！

Python 下载大文件，哪种方式速度更快

大家好，我是萝卜。

通常，我们都会用 requests 库去下载，这个库用起来太方便了。

方法一

使用以下流式代码，无论下载文件的大小如何，Python 内存占用都不会增加：

def download_file(url):
    local_filename = url.split('/')[-1]
    # 注意传入参数 stream=True
    with requests.get(url, stream=True) as r:
        r.raise_for_status()
        with open(local_filename, 'wb') as f:
            for chunk in r.iter_content(chunk_size=8192): 
                f.write(chunk)
    return local_filename

如果你有对 chunk 编码的需求，那就不该传入 chunk_size 参数，且应该有 if 判断。

def download_file(url):
    local_filename = url.split('/')[-1]
    # 注意传入参数 stream=True
    with requests.get(url, stream=True) as r:
        r.raise_for_status()
        with open(local_filename, 'w') as f:
            for chunk in r.iter_content(): 
                if chunk:
                    f.write(chunk.decode("utf-8"))
    return local_filename

iter_content^[1] 函数本身也可以解码，只需要传入参数 decode_unicode = True 即可。

请注意，使用 iter_content 返回的字节数并不完全是 chunk_size，它是一个通常更大的随机数，并且预计在每次迭代中都会有所不同。

方法二

使用 Response.raw^[2] 和 shutil.copyfileobj^[3]

import requests
import shutil

def download_file(url):
    local_filename = url.split('/')[-1]
    with requests.get(url, stream=True) as r:
        with open(local_filename, 'wb') as f:
            shutil.copyfileobj(r.raw, f)

    return local_filename

这将文件流式传输到磁盘而不使用过多的内存，并且代码更简单。

注意：根据文档，Response.raw 不会解码，因此如果需要可以手动替换 r.raw.read 方法

response.raw.read = functools.partial(response.raw.read, decode_content=True)

速度

方法二更快。方法一如果 2-3 MB/s 的话，方法二可以达到近 40 MB/s。


人生苦短，我用python
【神秘礼包获取方式】
点击下方公众号回复：1024
推荐阅读  点击标题可跳转
用 Python 爬取股票实时数据
原来使用 Pandas 绘制图表也这么惊艳
13 个非常有用的 Python 代码片段，建议收藏！
39个 Python Datetime 小例子，拯救因时间抓狂的你



原文始发于微信公众号（萝卜大杂烩）：Python 下载大文件，哪种方式速度更快

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Python 下载大文件，哪种方式速度更快

方法一

方法二

速度

python_mmdt:ssdeep、tlsh、vhash、mmdthash对比

VS配置优化：编译器的一行选项，也是红队勇士的免检盒

Linux shell 脚本编程

第10章内存管理和文件操作rnrnrn10.3 驱动器和目录(1)

fastjson<=1.2.68 漏洞分析

高并发是一种架构思维模式

《嵌入式高阶C语言》第十三节课：main函数形参和返回值的意义

代码审计-反序列化CC链

一文攻克小白噩梦：Java Web安全之代码审计

SDL序列课程-第45篇-安全需求-用户信息使用需求-收集信息时，需要明确告知用户获取用户数据的方式/内容

发表评论

在线咨询

微信