searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

数据治理之数据质量

2023-05-25 06:30:57
36
0

一、 数据质量的定义和重要性

1.1 数据质量的定义

数据质量是指数据的可信度、准确性、完整性、一致性、安全性、规范性、及时性和合法性等方面是否符合要求。

1.2 数据质量的重要性

数据质量对企业的竞争力和业务决策有着至关重要的影响,具体表现为提高业务决策的准确性、降低风险和成本、优化客户服务水平等方面。

二、 数据质量管理中常用的评估指标

根据目前业界对于数据质量的衡量标准,可基于数据完整性、唯一性、有效性、一致性、准确性和及时性6大维度来评估数据质量。依据以上指标,针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执行中进行取舍。

 

图1-评估维度

1.1 数据完整性

数据完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。

1.2 数据唯一性

数据唯一性指的是数据库的数据不存在重复的情形。比如真实订单数据有10万条,但是数据表内有1万条重复数据,成了11万条订单成交记录,这种数据不符合数据唯一性。

1.3 数据有效性

有效性指的是描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。

1.4 数据一致性

一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑,一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。常见的一致性指标有:ID重合度、属性一致、取值一致、采集方法一致、转化步骤一致。

1.5 数据准确性

准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致,更为常见的数据准确性错误就如乱码,其次异常的大或者小的数据也是不符合条件的数据。常见的准确性指标有:缺失值占比、错误值占比、异常值占比、抽样偏差、数据噪声。

1.6 数据及时性

及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。比如一份数据是统计离线今日的,结果都是第二天甚至第三天才能统计完,这种数据不符合数据及时性。

三、 全流程数据质量实践简介

3.1 事前规范

1)规范定义

首先制定数据标准,然后在数据建模使用过程中根据业务情况沉淀企业业务的数据标准,通过规范约束标准值域、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性,从源头上保障数据的标准化生产,节约后续数据应用和处理的成本。

2)数据探查

数据探查通过对来源数据存储位置、来源信息、数据总量、更新情况、字段格式、数据结构等进行多维度探查,以达到认识和了解数据的目的,为数据的接入、使用和处理提供事前依据。

3)质量需求分析

  • 明确数据质量需求
    重点关注那些由于数据质量问题导致的收入损失、风险增加、流程卡顿等业务问题,并按照对业务的影响程度进行排序,从业务出发排定数据质量需求的优先级,并确定资源投入的倾斜程度。
  • 确定数据质量方案,根据对业务需求涉及的数据问题进行分析,明确数据质量管理范围和需求,制定具体的数据质量管理目标、数据质量规则方案和具体的排期上线时间

图2-数据建模

3.2 事中监控

基于事前规范和数据质量分析结果,明确数据质量维度评估的方案和计划,依据预先配置的规则,对系统中的数据进行监测和校验,给出数据质量评估结果。

图3-模板列表

3.3 事后治理

1)数据质量全局效果大屏

基于数据质量环境分析(包括组织、角色、流程、系统和数据模型等),明确数据质量维度评估的方案和计划,依据预先配置的规则和算法,对系统中的数据进行监测和校验,给出数据质量评估结果。

2)数据质量治理项梳理

在治理360模块根据查看数据质量待治理项和数据质量综合治理建议。

图4-数据质量大屏

0条评论
0 / 1000
g****n
3文章数
0粉丝数
g****n
3 文章 | 0 粉丝
g****n
3文章数
0粉丝数
g****n
3 文章 | 0 粉丝
原创

数据治理之数据质量

2023-05-25 06:30:57
36
0

一、 数据质量的定义和重要性

1.1 数据质量的定义

数据质量是指数据的可信度、准确性、完整性、一致性、安全性、规范性、及时性和合法性等方面是否符合要求。

1.2 数据质量的重要性

数据质量对企业的竞争力和业务决策有着至关重要的影响,具体表现为提高业务决策的准确性、降低风险和成本、优化客户服务水平等方面。

二、 数据质量管理中常用的评估指标

根据目前业界对于数据质量的衡量标准,可基于数据完整性、唯一性、有效性、一致性、准确性和及时性6大维度来评估数据质量。依据以上指标,针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执行中进行取舍。

 

图1-评估维度

1.1 数据完整性

数据完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。

1.2 数据唯一性

数据唯一性指的是数据库的数据不存在重复的情形。比如真实订单数据有10万条,但是数据表内有1万条重复数据,成了11万条订单成交记录,这种数据不符合数据唯一性。

1.3 数据有效性

有效性指的是描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。

1.4 数据一致性

一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑,一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。常见的一致性指标有:ID重合度、属性一致、取值一致、采集方法一致、转化步骤一致。

1.5 数据准确性

准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致,更为常见的数据准确性错误就如乱码,其次异常的大或者小的数据也是不符合条件的数据。常见的准确性指标有:缺失值占比、错误值占比、异常值占比、抽样偏差、数据噪声。

1.6 数据及时性

及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。比如一份数据是统计离线今日的,结果都是第二天甚至第三天才能统计完,这种数据不符合数据及时性。

三、 全流程数据质量实践简介

3.1 事前规范

1)规范定义

首先制定数据标准,然后在数据建模使用过程中根据业务情况沉淀企业业务的数据标准,通过规范约束标准值域、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性,从源头上保障数据的标准化生产,节约后续数据应用和处理的成本。

2)数据探查

数据探查通过对来源数据存储位置、来源信息、数据总量、更新情况、字段格式、数据结构等进行多维度探查,以达到认识和了解数据的目的,为数据的接入、使用和处理提供事前依据。

3)质量需求分析

  • 明确数据质量需求
    重点关注那些由于数据质量问题导致的收入损失、风险增加、流程卡顿等业务问题,并按照对业务的影响程度进行排序,从业务出发排定数据质量需求的优先级,并确定资源投入的倾斜程度。
  • 确定数据质量方案,根据对业务需求涉及的数据问题进行分析,明确数据质量管理范围和需求,制定具体的数据质量管理目标、数据质量规则方案和具体的排期上线时间

图2-数据建模

3.2 事中监控

基于事前规范和数据质量分析结果,明确数据质量维度评估的方案和计划,依据预先配置的规则,对系统中的数据进行监测和校验,给出数据质量评估结果。

图3-模板列表

3.3 事后治理

1)数据质量全局效果大屏

基于数据质量环境分析(包括组织、角色、流程、系统和数据模型等),明确数据质量维度评估的方案和计划,依据预先配置的规则和算法,对系统中的数据进行监测和校验,给出数据质量评估结果。

2)数据质量治理项梳理

在治理360模块根据查看数据质量待治理项和数据质量综合治理建议。

图4-数据质量大屏

文章来自个人专栏
数据中台
3 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0