一、 数据质量的定义和重要性
1.1 数据质量的定义
数据质量是指数据的可信度、准确性、完整性、一致性、安全性、规范性、及时性和合法性等方面是否符合要求。
1.2 数据质量的重要性
数据质量对企业的竞争力和业务决策有着至关重要的影响,具体表现为提高业务决策的准确性、降低风险和成本、优化客户服务水平等方面。
二、 数据质量管理中常用的评估指标
根据目前业界对于数据质量的衡量标准,可基于数据完整性、唯一性、有效性、一致性、准确性和及时性6大维度来评估数据质量。依据以上指标,针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执行中进行取舍。
图1-评估维度
1.1 数据完整性
数据完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。
1.2 数据唯一性
数据唯一性指的是数据库的数据不存在重复的情形。比如真实订单数据有10万条,但是数据表内有1万条重复数据,成了11万条订单成交记录,这种数据不符合数据唯一性。
1.3 数据有效性
有效性指的是描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。
1.4 数据一致性
一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑,一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。常见的一致性指标有:ID重合度、属性一致、取值一致、采集方法一致、转化步骤一致。
1.5 数据准确性
准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致,更为常见的数据准确性错误就如乱码,其次异常的大或者小的数据也是不符合条件的数据。常见的准确性指标有:缺失值占比、错误值占比、异常值占比、抽样偏差、数据噪声。
1.6 数据及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。比如一份数据是统计离线今日的,结果都是第二天甚至第三天才能统计完,这种数据不符合数据及时性。
三、 全流程数据质量实践简介
3.1 事前规范
1)规范定义
首先制定数据标准,然后在数据建模使用过程中根据业务情况沉淀企业业务的数据标准,通过规范约束标准值域、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性,从源头上保障数据的标准化生产,节约后续数据应用和处理的成本。
2)数据探查
数据探查通过对来源数据存储位置、来源信息、数据总量、更新情况、字段格式、数据结构等进行多维度探查,以达到认识和了解数据的目的,为数据的接入、使用和处理提供事前依据。
3)质量需求分析
- 明确数据质量需求
重点关注那些由于数据质量问题导致的收入损失、风险增加、流程卡顿等业务问题,并按照对业务的影响程度进行排序,从业务出发排定数据质量需求的优先级,并确定资源投入的倾斜程度。 - 确定数据质量方案,根据对业务需求涉及的数据问题进行分析,明确数据质量管理范围和需求,制定具体的数据质量管理目标、数据质量规则方案和具体的排期上线时间
图2-数据建模
3.2 事中监控
基于事前规范和数据质量分析结果,明确数据质量维度评估的方案和计划,依据预先配置的规则,对系统中的数据进行监测和校验,给出数据质量评估结果。
图3-模板列表
3.3 事后治理
1)数据质量全局效果大屏
基于数据质量环境分析(包括组织、角色、流程、系统和数据模型等),明确数据质量维度评估的方案和计划,依据预先配置的规则和算法,对系统中的数据进行监测和校验,给出数据质量评估结果。
2)数据质量治理项梳理
在治理360模块根据查看数据质量待治理项和数据质量综合治理建议。
图4-数据质量大屏