社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

Python 下载大文件,哪种方式速度更快

程序员软件库 • 2 年前 • 273 次点击  


点击上方“程序员软件库”,选择“星标
第一时间关注  软件资讯干货!

来源:Python7号

通常,我们都会用 requests 库去下载,这个库用起来太方便了。

方法一

使用以下流式代码,无论下载文件的大小如何,Python 内存占用都不会增加:

def download_file(url):
    local_filename = url.split('/')[-1]
    # 注意传入参数 stream=True
    with requests.get(url, stream=Trueas r:
        r.raise_for_status()
        with open(local_filename, 'wb'as f:
            for chunk in r.iter_content(chunk_size=8192): 
                f.write(chunk)
    return local_filename

如果你有对 chunk 编码的需求,那就不该传入 chunk_size 参数,且应该有 if 判断。

def download_file(url):
    local_filename = url.split('/')[-1]
    # 注意传入参数 stream=True
    with requests.get(url, stream=Trueas r:
        r.raise_for_status()
        with open(local_filename, 'w'as f:
            for chunk in r.iter_content(): 
                if chunk:
                    f.write(chunk.decode("utf-8"))
    return local_filename

iter_content[1] 函数本身也可以解码,只需要传入参数 decode_unicode = True 即可。

请注意,使用 iter_content 返回的字节数并不完全是 chunk_size,它是一个通常更大的随机数,并且预计在每次迭代中都会有所不同。

方法二

使用 Response.raw[2]shutil.copyfileobj[3]

import requests
import shutil

def download_file(url):
    local_filename = url.split('/')[-1]
    with  requests.get(url, stream=Trueas r:
        with open(local_filename, 'wb'as f:
            shutil.copyfileobj(r.raw, f)

    return local_filename

这将文件流式传输到磁盘而不使用过多的内存,并且代码更简单。

注意:根据文档,Response.raw 不会解码,因此如果需要可以手动替换 r.raw.read 方法

response.raw.read = functools.partial(response.raw.read, decode_content=True)

速度

方法二更快。方法一如果 2-3 MB/s 的话,方法二可以达到近 40 MB/s。

最后

如果用 Python 更快的下载大文件,推荐使用方法二。如果有收获,还请点赞、转发,关注。

参考资料

[1]

iter_content: https://requests.readthedocs.io/en/latest/api/#requests.Response.iter_content

[2]

Response.raw: https://requests.readthedocs.io/en/latest/api/#requests.Response.raw

[3]

shutil.copyfileobj: https://docs.python.org/3/library/shutil.html#shutil.copyfileobj

往期最佳
01.某度的克星?这款神器太牛了!
02.解除网盘下载限制,大文件也无需启动客户端
03.激活Windows11还得靠它...
04.再牛逼的广告,到这里也把你治服帖了
05.Office 2021[简体中文]零售版官方镜像开放下载(合集)
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/137698
 
273 次点击