时序数据压缩的必要和facebook-gorilla压缩算法简介

时序数据压缩的必要和facebook-gorilla压缩算法简介

2025-04-18 07:11:32 阅读次数：3

压缩，数据

海量时序数据存储空间问题

以城市气温为例

以城市气温为例，气温采集的传感器通常以一个固定的间隔采样
比如每5秒采集一次温度数据进行上报，也就是采集会7*24小时365天不间断。
那么我们做个简单的算术题，5秒一个数据点，一分钟会有12个点
那么一天就是12*60*24 17280个数据点
一个月则会有12*60*24*30 518400个数据点。这就是时序数据写入的第一个特点：持续写入，累计数据量大 。

多个采集站和多个传感器

同时需要在一个城市设置多个气温采集站，采集站内温度布置多个传感器
也就是说同一时刻数百万甚至数千万的数据写入

指标占用存储空间计算

一个点16 byte 那么一个小时的数据就是 17280* 16/1024/1024=0.26MB，这只是1个指标
如果上百万的指标，那么一个小时所需要的存储空间为250GB，一天则为6T的数据

分析结论

由于海量的监控指标和源源不断的采集
时序监控系统的所需的存储空间是很大

为什么要做数据点压缩

因为存储一般是一套大系统中的资源开销大户
以时序监控系统来说，假设查询模块需要10cpu，20G内存，100G磁盘，那么存储模块往往需要100cpu，2000G内存，3T磁盘。
所以能对存储中的数据点进行压缩，那么能直接降低内存和磁盘空间/io的开销，所以这也是tsdb开发人员不断努力的地方。

facebook_gorilla压缩算法

31.1 时序数据压缩的必要和facebook-gorilla压缩算法简介

Gorilla压缩算法是facebook2016发布的一篇论文论文中提到了，Facebook内部高速发展的业务对监控系统提出了下列数据要求：

要求

20亿个不同的Time Series
每分钟产生7亿个Data Points，即每秒钟产生1200万Data Points
数据需要存储26个小时
高峰期的查询高达40000次每秒
查询时延需要小于1ms
每个Time Series每分钟可产生4个Data Points
每年的数据增长率为200%

特点

在两个小时的block里从16byte压缩到1.37byte，压缩比例高达11.6

本节重点总结 :

海量时序数据存储空间问题
为什么要做数据点压缩
facebook_gorilla压缩算法
压缩比例高达11.6

版权声明：本文内容来自第三方投稿或授权转载，原文地址：https://blog.51cto.com/moonfdd/12607038，作者：福大大架构师每日一题，版权归原作者所有。本网站转在其作品的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系，请发邮件至ctyunbbs@chinatelecom.cn沟通。

上一篇： k8s容器cpu内存告警指标与资源request和limit

下一篇：DDL—表—数据类型—字符串类型相关语法

作者介绍

天翼云小翼

天翼云用户

文章

32777

阅读量

4802996

最新文章

DDL—表—数据类型—字符串类型相关语法

2025-04-18 07:11:40

Redis多级缓存指南：从前端到后端全方位优化！

2025-04-15 09:24:56

Redis经典问题：数据不一致

2025-04-15 09:20:07

Redis经典问题：缓存击穿

2025-04-15 09:20:07

文心一言 VS 讯飞星火 VS chatgpt （263）-- 算法导论20.1 2题

2025-04-15 09:19:45

javascript 西瓜一期 15 数据的存储单位

2025-04-09 09:14:24

热门文章

如何冷静面对照片视频丢失误删除的种种现象？

2023-08-07 07:02:45

Hudi使用场景

2023-08-09 06:40:42

存储引擎

2023-07-17 08:10:53

Greenplum如何选择表的存储方式---heap table or append optimized table?

2023-07-11 08:55:14

Hibernate缓存机制之快照

2022-12-29 09:29:46

EMC Isilon存储数据恢复成功案例

2023-03-07 07:47:14

热门标签

存储缓存内存数据库数据 redis mysql 服务器数据恢复 Redis linux java sql MySQL 数据结构

相关产品

弹性云主机

随时自助获取、弹性伸缩的云服务器资源

天翼云电脑（公众版）

便捷、安全、高效的云电脑服务

对象存储

高品质、低成本的云上存储服务

云硬盘

为云上计算资源提供持久性块存储

随机文章

mysql上课总结(1)（mysql中的常见的存储引擎）(面试)

设在起始地址为STRING的存储空间存放了一个字符串（该串已存放在内存中，无需输入，且串长不超过99），统计字符串中字符“A”的个数，并将结果显示在屏幕上。

Mysql的两种存储引擎详细分析及区别（全）

150道MySQL高频面试题，学完吊打面试官--关于索引的五道大厂面试题，跳槽面试很重要

【大小端】大小端（数据在内存中的存储）

解读缓存问题的技术旅程