Scrapy_redis框架的概念作用和流程

Scrapy_redis框架的概念作用和流程

2023-06-07 07:30:58 阅读次数：426

当爬取的网站的数据量非常庞大的时候，再使用之前的Scrapy框架速度就会有点偏慢，这时可以使用分布式来快速的爬取大量的数据。

1. 分布式是什么

分布式就是不同的节点（服务器，ip不同）共同完成一个任务。

2. scrapy_redis的概念

scrapy_redis是scrapy框架基于redis的分布式组件。

3. scrapy_redis的作用

Scrapy_redis在scrapy的基础上增加了更多强大的功能，具体体现在：

通过持久化请求队列和请求的指纹集合来实现：【指纹集合：唯一标志，可以对其做哈希】

断点续爬
分布式快速抓取

分布式的好处：

加快项目的运行速度，但是需要的资源（硬件&网络）依然还是原有的
单个节点的不稳定性不影响整个系统的稳定性

4. scrapy_redis的工作流程

4.1 scrapy的流程

Scrapy_redis框架的概念作用和流程

Scrapy_redis框架的概念作用和流程

【redis_key 是一个键存储的字符串，用于启动爬虫项目的，是启动的请求】

思考：那么，在这个基础上，如果需要实现分布式，即多台服务器同时完成一个爬虫，需要怎么做呢？

4.2 scrapy_redis的流程

在scrapy_redis中，所有的待抓取的request对象和去重的request对象指纹都存在所有的服务器公用的redis中
所有的服务器中的scrapy进程公用同一个redis中的request对象的队列
所有的request对象存入redis前，都会通过该redis中的request指纹集合进行判断，之前是否已经存入过
在默认情况下所有的数据会保存在redis中

具体流程如下：

Scrapy_redis框架的概念作用和流程

版权声明：本文内容来自第三方投稿或授权转载，原文地址：https://blog.csdn.net/weixin_44799217/article/details/113807675，作者：IT之一小佬，版权归原作者所有。本网站转在其作品的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系，请发邮件至ctyunbbs@chinatelecom.cn沟通。

上一篇：【mysql日常】Centos安装Mysql客户端

下一篇：Python Web 框架要点

作者介绍

天翼云小翼

天翼云用户

文章

32168

阅读量

4654138

最新文章

深入学习Java语言核心技术

2025-03-18 09:59:32

使用Java构建高性能微服务架构

2025-03-18 09:59:32

Android 架构设计(三)：技术选型

2025-03-12 09:32:39

探索Jooby：一个轻量级 Java Web 框架的精致世界

2025-03-11 09:36:54

深入浅出揭秘ModernUI Framework

2025-03-10 09:52:02

任务框架Quartz初始化Sql脚本

2025-03-06 09:14:22

热门文章

redis客户端连接(error) NOAUTH Authentication required

2023-02-13 07:59:59

redis-启动服务端-客户端连接服务端

2023-03-29 10:07:17

web-基础入门-web框架-web服务器-wsgi接口

2023-03-30 10:05:30

UnitTest（1）-UnitTest自动化测试框架简介

2023-04-07 06:48:44

redis哨兵客户端文档

2023-06-12 09:39:03

一线互联网大厂都是怎么面试Redis 审核中

2023-06-13 08:36:00

热门标签

客户端 Java 服务器 java 实践基础知识框架数据库 python javascript 代码服务端 Spring 编程 mysql

相关产品

弹性云主机

随时自助获取、弹性伸缩的云服务器资源

天翼云电脑（公众版）

便捷、安全、高效的云电脑服务

对象存储

高品质、低成本的云上存储服务

云硬盘

为云上计算资源提供持久性块存储

随机文章

从开源框架学习设计模式之策略模式应用

springboot 自定义注解+拦截器+Redis实现限流，防止恶意刷接口实践

【Mybatis相关】mybatis框架基础以及自定义插件开发

用户登录，保存30天的免登，只允许两个设备登录，如果有第三个设备登录，踢掉第一个。改密码的时候，所有设备需要下线。这个逻辑怎么实现呢？

neptune节点的客户端测试程序

redis集群实践+等保要求的整改方案