Python爬虫：使用requests库下载大文件

2024-06-25 08:05:55 阅读次数：40

Python，爬虫

当使用requests的get下载大文件/数据时，建议使用使用stream模式。

当把get函数的stream参数设置成False时，它会立即开始下载文件并放到内存中，如果文件过大，有可能导致内存不足。

当把get函数的stream参数设置成True时，它不会立即开始下载，当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载。需要注意一点：文件没有下载之前，它也需要保持连接。

iter_content：一块一块的遍历要下载的内容

iter_lines：一行一行的遍历要下载的内容

使用上面两个函数下载大文件可以防止占用过多的内存，因为每次只下载小部分数据。

示例代码：

r = requests.get(url_file, stream=True)
f = open("file_path", "wb")
# chunk是指定每次写入的大小，每次只写了512byte
for chunk in r.iter_content(chunk_size=512):
    if chunk:
        f.write(chunk)

参考
Python下载大文件内存不够怎么办？

上一篇：html通过js调用ios或android代码

下一篇：Python编程：字典排序sorted问题

推荐标签

作者介绍

天翼云小翼

天翼云用户

文章

32268

阅读量

4687422

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Python爬虫：使用requests库下载大文件

Python爬虫：使用requests库下载大文件

相关文章

一文解读JavaScript中的文档对象（DOM）

Python算法学习[11]—图像问题&问题描述与实现

Python算法学习[10]—经典算法问题的解决&算法分析与实现

Python算法学习[6]—查找算法：表、树、散列、斐波那契查找算法&实践操作

Python的PyQt框架的使用-布局管理篇

Python爬虫应用指南之基础知识

[快学Python3]Sets(集合)

[python] ​Python数据序列化模块pickle使用笔记

如何入门Python——学习Python的指南针

[编程基础] Python命令行解析库argparse学习笔记

作者介绍

最新文章

一文解读JavaScript中的文档对象（DOM）

Python算法学习[11]—图像问题&问题描述与实现

Python算法学习[10]—经典算法问题的解决&算法分析与实现

[快学Python3]Sets(集合)

Python爬虫应用指南之基础知识

Python学习总结之三（if语句）

热门文章

Python标准输入输出

Python：matplotlib分组Bar柱状图

刷题——Python篇（2）类型转换

Python Pandas将多个dataframe写入Excel文件

AI：深度学习中的激活函数sigmoid函数，Python

Python冒泡排序

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Python 统计进程池正在执行的进程个数（进程池进程个数）

[编程基础] Python lambda函数总结

Python--PyQt5.11 + PyCharm安装环境搭建(11.6)

centos安装Python3之后yum不能使用异常

【第一章：初识Python】1.5 Python自带的IDLE

linux实时查看java接口数据

[python] Python数据序列化模块pickle使用笔记