Python爬虫：滤网架构处理爬虫数据-天翼云

Python爬虫：滤网架构处理爬虫数据

2023-02-15 08:25:38 阅读次数：366

Python爬虫：滤网架构处理爬虫数据_数据库

业务场景：

1、爬虫数据直接入库会出现id自增过大的问题。要么就入库之前做一次查询，确保数据不存在再插入，这样一来就速度就减慢了。而且，爬虫程序运行速度往往较快，查询操作过多对数据库造成压力也不小。

2、一个表的数据分别来自不同地方，需要多个程序对其进行数据补全操作，这样一来，就会出现数据缺失现象。如果直接入业务库会出现数据不全，虽然不是bug，但是影响体验

为了解决以上两个问题，采用了爬虫数据 和业务数据 分层的做法

原始数据层 接收来自爬虫的数据
滤网层 负责对数据进行过滤，对符合条件的数据进行入库操作，按需入库，同时也能减少对业务数据库的操作
业务数据层 保存过滤之后的最终数据

数据经过一系列处理后，业务层拿到的数据就是优质数据了。而且利于数据维护

比如，业务层的数据库莫名出问题了，那么直接从原始数据库导过去就行了，就不需要重新抓取数据。

不过这样做的缺点是工作复杂度升高了，时间紧任务重就不推荐此方法了

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Python爬虫：滤网架构处理爬虫数据

Python爬虫：滤网架构处理爬虫数据

相关文章

文心一言 VS 讯飞星火 VS chatgpt （275）-- 算法导论20.3 2题

nacos配置mysql数据库和鉴权

从零做软件开发项目系列之三——系统设计

java使用JDBC方式操作mysql数据库示例

Java的几种常用包

Javaweb编程中的乱码问题

Java获取控制台输出信息(终极版)

Java获取控制台输出信息

java.lang.IllegalStateException: Duplicate key异常解决

多并发的高实时的订单查询的性能问题(进程内共享数据)

作者介绍

最新文章

从零做软件开发项目系列之三——系统设计

Java的几种常用包

Javaweb编程中的乱码问题

Java获取控制台输出信息(终极版)

Java获取控制台输出信息

多并发的高实时的订单查询的性能问题(进程内共享数据)

热门文章

Python数据库测试实战教程

Python|斐波那契数列

游戏编程之十一 图像页CPICPAGE介绍

PHP：将list列表转为tree树形数据

数据结构与算法之七 栈

Python编程：Crypto模块RSA非对称加密

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Mysql 5.7大量数据修改表结构解决办法（插入一千万条数据测试）

Python数据库测试实战指南

【Flink网络数据传输（4）】RecordWriter（下）封装数据并发送到网络的过程

深入理解MDL元数据锁

Python编程：Crypto模块RSA非对称加密

Java后端微服务架构下的数据库设计：Sharding与CQRS

游戏编程之十一图像页CPICPAGE介绍

数据结构与算法之七栈