searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

数据治理之数据质量评估维度及方法

2023-10-31 02:53:50
72
0

从某种程度上来说“数据=金钱”,数据质量的好坏直接决定着数据价值高低,直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。

数据质量关注点

一致性:值数内容在系统内,系统间是否保持一致。如指标是否同名同义,存储,精确度,加工逻辑等是否一致。

完整性:指数据的完整,完备性与及时性,是否存在数据遗漏,缺失及补充等。每日提供的数据应该是完整的,无论在量上还是在特定的数据上,高质量的数据是通过完整的数据统计出来的。

可靠性:指数据的稳定性和准确性等,数据提供过程中,数据产生依赖于系统间的性能,生产数据和加工数据的过程,都会影响数据的可靠性。

准确性:数据域源头的精确性,以及数据处理过程中是否存在算法和数据冲突等。数据的准确性可能存在于个别记录,也可能存在于整个数据集,只有准确更高的数据才能提供高效、高优的决策。

可理解性:数据的可读性和可分析性,是否满足业务需求,以及数据间是否存在相互关系,用户拿到数据是可理解,可用,可决策的。

有效性:指数据是否有效可用,以及数据数据的访问域安全性等。数据安全是数据质量的一项重点管理方面,数据安全对于数据人来说是一条不可触摸的红线。

二、数据质量评估维度

数据完整性:考量数据项信息是否全面、完整、无缺失。考核指标表完整性和字段完整性。

监控覆盖率:确保数据遵循统一的数据标准或规范要求,考核指标:监控覆盖率,监控覆盖率=监控的高价值任务个数/高价值任务总个数。其中统计的范围只涉及有价值的任务。

任务准确性:考量数据是否符合预设的质量要求,如唯一性约束、记录量校验等,考核指标:任务监控告警率,监控任务告警率=告警任务个数(本周)/监控任务总个数。注:这里的告警任务,都是数据质量监控任务。

告警响应度:通过日常管理、应急响应,降低或消除问题影响,避免数据损毁、丢失。指标公式:统一的时间中期内,已处理告警个数/告警总个数。

任务性能:考量任务的执行效率和健康度,诊断任务是否倾斜等性能问题。指标公式:问题任务个数(统计周期内)/任务总个数。

任务稳定性:考量任务的运行稳定性,是否经常报错,导致数据事故。指标公式:失败任务个数(统计周期内)/总任务总个数。

任务时效性:考量数据项信息可被获取和使用的时间是否满足预期要求,考核指标。任务延迟率,任务延迟率=延迟的高价值任务个数(统计周期内)/高价值任务总个数,其中,基准时间为任务近30天平均完成时间加30分钟,任务晚于基准即延迟。

三、数据质量校验方法

完整性

1:可以从数据量上进行校验。一般情况下,成熟的业务场景,每日生成的数据基本恒定,如果莫一天数据地域日常数据的波动阈值,可以预测数据基本是不完整的。

2 完整性的另一部分是字段的数据缺失,可以通过统计字段的空值率进行校验。比如默写字段在表中理论上是必然存在的,数据中如果出现了空值,则说明该字段的数据缺失。

准确性

1,常见的数量级的记录错误,这种错误很容易发现,通过对比表数据量级的波动,判断当日的数据是否准确。

2 可以通过异常值进行判断。表中字段字符,或者数值出现了非法情况,可以判断数据不准确。

3 准确性也可以通过数据类型,以及数据的长度进行校验。 

4 对于数据也可以通过数据的分部情况进行验证。字符乱码的问题或者字符被截断的问题,可以使用分布来发现这类问题,一般的数据记录基本符合正态分布或者类正态分布,那么那些占比异常小的数据项很可能存在问题,比如某个字符记录占总体的占比只有0.1%,而其他的占比都在3%以上,那么很有可能这个字符记录有异常。

一致性:

1如果数据记录格式有标准的编码规则,那么对数据记录的一致性检验比较简单,只要验证所有的记录是否满足这个编码规则就可以。比如身份证号都是18位,前面17位均是数字等。

2 对于可数的枚举,可以通过映射校验。比如省份等,可以把这些唯一值映射到有效的32个省市的列表,如果无法映射,那么字段通不过一致性检验。如“浙江”而不是“浙江省”。

3 一致性中逻辑规则的验证相对比较复杂,指标的统计逻辑的一致性需要底层数据质量的保证,同时也要有非常规范和标准的统计逻辑的定义,所有指标的计算规则必须保证一致。常见的问题就是汇总数据和细分数据加起来的结果对不上。如果需要审核这些数据逻辑的一致性,我们可以建立一些“有效性规则”,比如A>=B,如果C=B/A,那么C的值应该在[0,1]的范围内等,数据无法满足这些规则时,就无法通过一致性检验。

常见可配置的监控规则

表级非空记录:历史全量表(无分区):表里没有记录条数时告警;分区表:分区等于T-1时,无数据记录条数告警。

表环比监控:根据历史周期计算数据量波动的范围,设置上下阈值,环比超出阈值,进行告警。

目标表原表校验:如果目标表的数据量同原表的数据量对比,超出环比的上下阈值,进行告警。

表主键唯一:如果统计出的主键的记录条数和表的记录条数不一致,进行告警。

非空校验:表中有些字段不会出现空值的况,对该字段惊醒空值监控,如果出现空值,进行告警。

字符长度:如果数据中数据的长度超过预定长度的上下阈值进行告警

枚举值校验:如果数据中出现枚举范围外的数据,进行告警,此种情况适用于枚举值量小的情况。

字段环比监控:如果表中某字段的值域超出波动范围的上下阈值,进行告警,比如增长率,交易额等。

数据类型校验:如果数字型字段,数据中出现字符,进行告警。

字段数字极值监控:如果字段的数值超过该数据设置的上下的极值,进行告警。

字段字符非法校验:如果字段的数据中出现了非法字符,进行告警。

字段空置占比告警;如果字段中的空置率查出设定的上下阈值,进行告警。

产出时间监控:基于任务链路设置任务的SLA,任务超如设定时间未完成,进行告警。

0条评论
0 / 1000
l****n
6文章数
0粉丝数
l****n
6 文章 | 0 粉丝
原创

数据治理之数据质量评估维度及方法

2023-10-31 02:53:50
72
0

从某种程度上来说“数据=金钱”,数据质量的好坏直接决定着数据价值高低,直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。

数据质量关注点

一致性:值数内容在系统内,系统间是否保持一致。如指标是否同名同义,存储,精确度,加工逻辑等是否一致。

完整性:指数据的完整,完备性与及时性,是否存在数据遗漏,缺失及补充等。每日提供的数据应该是完整的,无论在量上还是在特定的数据上,高质量的数据是通过完整的数据统计出来的。

可靠性:指数据的稳定性和准确性等,数据提供过程中,数据产生依赖于系统间的性能,生产数据和加工数据的过程,都会影响数据的可靠性。

准确性:数据域源头的精确性,以及数据处理过程中是否存在算法和数据冲突等。数据的准确性可能存在于个别记录,也可能存在于整个数据集,只有准确更高的数据才能提供高效、高优的决策。

可理解性:数据的可读性和可分析性,是否满足业务需求,以及数据间是否存在相互关系,用户拿到数据是可理解,可用,可决策的。

有效性:指数据是否有效可用,以及数据数据的访问域安全性等。数据安全是数据质量的一项重点管理方面,数据安全对于数据人来说是一条不可触摸的红线。

二、数据质量评估维度

数据完整性:考量数据项信息是否全面、完整、无缺失。考核指标表完整性和字段完整性。

监控覆盖率:确保数据遵循统一的数据标准或规范要求,考核指标:监控覆盖率,监控覆盖率=监控的高价值任务个数/高价值任务总个数。其中统计的范围只涉及有价值的任务。

任务准确性:考量数据是否符合预设的质量要求,如唯一性约束、记录量校验等,考核指标:任务监控告警率,监控任务告警率=告警任务个数(本周)/监控任务总个数。注:这里的告警任务,都是数据质量监控任务。

告警响应度:通过日常管理、应急响应,降低或消除问题影响,避免数据损毁、丢失。指标公式:统一的时间中期内,已处理告警个数/告警总个数。

任务性能:考量任务的执行效率和健康度,诊断任务是否倾斜等性能问题。指标公式:问题任务个数(统计周期内)/任务总个数。

任务稳定性:考量任务的运行稳定性,是否经常报错,导致数据事故。指标公式:失败任务个数(统计周期内)/总任务总个数。

任务时效性:考量数据项信息可被获取和使用的时间是否满足预期要求,考核指标。任务延迟率,任务延迟率=延迟的高价值任务个数(统计周期内)/高价值任务总个数,其中,基准时间为任务近30天平均完成时间加30分钟,任务晚于基准即延迟。

三、数据质量校验方法

完整性

1:可以从数据量上进行校验。一般情况下,成熟的业务场景,每日生成的数据基本恒定,如果莫一天数据地域日常数据的波动阈值,可以预测数据基本是不完整的。

2 完整性的另一部分是字段的数据缺失,可以通过统计字段的空值率进行校验。比如默写字段在表中理论上是必然存在的,数据中如果出现了空值,则说明该字段的数据缺失。

准确性

1,常见的数量级的记录错误,这种错误很容易发现,通过对比表数据量级的波动,判断当日的数据是否准确。

2 可以通过异常值进行判断。表中字段字符,或者数值出现了非法情况,可以判断数据不准确。

3 准确性也可以通过数据类型,以及数据的长度进行校验。 

4 对于数据也可以通过数据的分部情况进行验证。字符乱码的问题或者字符被截断的问题,可以使用分布来发现这类问题,一般的数据记录基本符合正态分布或者类正态分布,那么那些占比异常小的数据项很可能存在问题,比如某个字符记录占总体的占比只有0.1%,而其他的占比都在3%以上,那么很有可能这个字符记录有异常。

一致性:

1如果数据记录格式有标准的编码规则,那么对数据记录的一致性检验比较简单,只要验证所有的记录是否满足这个编码规则就可以。比如身份证号都是18位,前面17位均是数字等。

2 对于可数的枚举,可以通过映射校验。比如省份等,可以把这些唯一值映射到有效的32个省市的列表,如果无法映射,那么字段通不过一致性检验。如“浙江”而不是“浙江省”。

3 一致性中逻辑规则的验证相对比较复杂,指标的统计逻辑的一致性需要底层数据质量的保证,同时也要有非常规范和标准的统计逻辑的定义,所有指标的计算规则必须保证一致。常见的问题就是汇总数据和细分数据加起来的结果对不上。如果需要审核这些数据逻辑的一致性,我们可以建立一些“有效性规则”,比如A>=B,如果C=B/A,那么C的值应该在[0,1]的范围内等,数据无法满足这些规则时,就无法通过一致性检验。

常见可配置的监控规则

表级非空记录:历史全量表(无分区):表里没有记录条数时告警;分区表:分区等于T-1时,无数据记录条数告警。

表环比监控:根据历史周期计算数据量波动的范围,设置上下阈值,环比超出阈值,进行告警。

目标表原表校验:如果目标表的数据量同原表的数据量对比,超出环比的上下阈值,进行告警。

表主键唯一:如果统计出的主键的记录条数和表的记录条数不一致,进行告警。

非空校验:表中有些字段不会出现空值的况,对该字段惊醒空值监控,如果出现空值,进行告警。

字符长度:如果数据中数据的长度超过预定长度的上下阈值进行告警

枚举值校验:如果数据中出现枚举范围外的数据,进行告警,此种情况适用于枚举值量小的情况。

字段环比监控:如果表中某字段的值域超出波动范围的上下阈值,进行告警,比如增长率,交易额等。

数据类型校验:如果数字型字段,数据中出现字符,进行告警。

字段数字极值监控:如果字段的数值超过该数据设置的上下的极值,进行告警。

字段字符非法校验:如果字段的数据中出现了非法字符,进行告警。

字段空置占比告警;如果字段中的空置率查出设定的上下阈值,进行告警。

产出时间监控:基于任务链路设置任务的SLA,任务超如设定时间未完成,进行告警。

文章来自个人专栏
数据治理-数据质量
6 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0