使用限制
- 当前数据质量规则仅支持内置Hive和内置Doris数据源。
- 创建数据质量规则后,您需要在数据开发 > 工作流开发中创建数据质量节点才可以周期调度。
- 部分数据质量规则模板需要先维护数据标准(标准值域、数据格式等),若您购买的版本不包含数据建模模块,对应的规则模板也无法使用。
步骤
- 点击数据治理-数据质量-规则管理进入数据质量规则列表页。
- 点击【新建规则】,即可创建配置数据质量规则。
创建分区表达式
大数据场景下,为避免全表扫描,提升任务执行效率,数据质量基于分区表达式来创建管理数据质量规则,用于稽核校验指定分区的数据质量,配置规则前,您可以点击管理分区表达式来创建或者删除分区表达式。
DataWings为您提供了部分内置的分区表达式,可直接使用,若内置表达式无法满足您的需要,则可根据需要输入自定义表达式。
配置分区表达式后,点击【计算】 ,数据质量会以当前时间作为调度时间,计算出分区表达式的实际结果,用来验证分区表达式是否符合您的预期。
内置分区表达式及其解释
分区表达式 | 解释 |
---|---|
dt=$[yyyyMMdd] | 表示分区时间取调度时间当天。 |
dt=$[yyyyMMdd-1d] | 表示分区时间取调度时间前一天。 |
dt=$[yyyyMMdd-1M] | 表示分区时间取调度时间前一月。 |
dt=$[yyyyMMddHHmmss] | 表示分区时间取调度时间(秒)。 |
dt=$[yyyyMMddHHmmss-1d] | 表示分区时间取调度时间前一天(秒)。 |
dt=$[yyyyMMddHHmmss-1M] | 表示分区时间取调度时间前一月(秒)。 |
dt=$[yyyyMMddHHmmss-1H] | 表示分区时间取调度时间前一小时(秒)。 |
dt=$[yyyyMMddHHmmss-30m] | 表示分区时间取调度时间前30分钟(秒)。 |
dt=$[HHmmss-1H] | 表示分区时间取调度时间前一小时(仅时分秒)。 |
dt=$[HHmmss-30m] | 表示分区时间取调度时间前30分钟(仅时分秒)。 |
创建数据质量规则
创建数据质量规则需要分别填写数据表信息、规则配置、比较方式、告警配置等信息。
配置信息解释如下:
配置项 | 解释说明 |
---|---|
数据源 | 选择数据源名称。 |
数据库 | 选择已选择数据源下的数据库名称。 |
数据表 | 选择已选择数据库下的数据表名称。 |
分区表达式 | 选择已创建的分区表达式,分区表达式文档参考上一节。 |
规则名称 | 输入当前规则的规则名称。 |
规则来源 | 选择内置模板或自定义。 |
粒度类型 | 如果规则来源为内置模板,则包括表粒度和字段粒度;如果规则来源为自定义,则包括表粒度、字段粒度、sql解析。 |
规则字段 | 选择字段粒度时需要选择此信息,可单选或多选字段加入质量稽核规则。 |
规则模板 | 支持下拉选择系统内置的数据质量模板,详细模板信息请参考模板管理。 |
采样方式 | 粒度类型为表级:可选 count 和 count/table ;粒度类型为字段级:可选 sum、max、min、avg。 |
强/弱规则 | 强规则在数据开发的质量节点运用中可阻塞数据处理流程,弱规则不会阻塞工作流。 |
校验类型 | 支持选择数值型、波动型,不同类型的规则比较方式不同。 |
校验方式 | 下拉单选,按校验类型的数值型和波动型显示不同内容,详情如下: 数值型:与固定值比较、上一周期差值、1天差值。 波动型:7天平均值波动、30天平均值波动、1天波动、7天波动、30天波动、7天标准差波动、1,7,30天波动、上一周期波动率、1,7,30,本月1号波动率。 |
负责人 | 规则负责人,提交质检规则时,会校验规则负责人是否拥有当前数据表的数据权限。 |
维度 | 当前数据质量规则评估类型(准确性、完整性、一致性、唯一性、有效性、及时性)。 |
过滤条件 | 您可以输入自定义sql过滤条件,多条语句之间使用英文逗号分隔,语句末尾无需添加分号。 |
Set Flag | 您可以输入自定义SetFlag语句,多条语句之间使用英文逗号分隔,语句末尾无需添加分号。 |
自定义sql | 当粒度类型是自定义sql时,支持输入sql创建数据质量规则。 |
比较方式 | 根据校验类型选择不同,比较方式的选择范围不同。数值型:选择范围为(大于、大于等于、等于、不等于、小于等于、小于);波动型:选择范围为(绝对值、上升、下降)。 |
期望值 | 当校验方式为数值型时显示,仅支持输入正数和零。 |
波动值比较 | 当校验方式为波动型时显示,可设报警阈值并在右侧可视化显示;(波动率=(样本-基准值)/基准值)。 |
联系人 | 选择告警通知的联系人及告警通道(可在运维中心配置)。 |
机器人 | 选择告警通知的机器人(可在运维中心配置)。 |
后续步骤
- 创建数据质量规则后,您需要前往数据开发 > 工作流开发中创建数据质量节点才可以周期调度。
- 如果您希望不符合预期的数据质量任务不阻塞数据开发工作流,可以将规则设定为弱规则或者期望抑制管理增加抑制策略,命中抑制策略的规则将不触发告警和阻塞逻辑。