数据质量支持对离线数据的监控,质量规则是数据质量的核心。DataArts Studio系统内置的模板规则共计25种,分为库级规则、表级规则、字段级规则和跨字段级规则等规则类型,如下表所示。
系统内置的规则模板一览表
规则类型 | 维度 | 模板名称 | 说明 |
---|---|---|---|
库级 | 完整性 | 数据库空值扫描 | 计算数据库中所有表字段的空值行数。 |
表级 | 准确性 | 表行数 | 计算数据表的总行数。 |
表级 | 完整性 | 数据表空值扫描 | 计算数据表中所有表字段的空值行数。 |
字段级 | 唯一性 | 字段唯一值 | 计算数据表中指定字段的唯一值行数。 |
字段级 | 唯一性 | 字段重复值 | 计算数据表中指定字段的重复值行数。 |
字段级 | 唯一性 | 多字段唯一性校验 | 校验DWS表中多个字段的组合是否唯一,最多支持10个字段的组合。 |
字段级 | 完整性 | 字段空值 | 计算数据表中指定字段的空值行数。 |
字段级 | 准确性 | 字段平均值 | 计算数据表中指定字段的平均值。 |
字段级 | 准确性 | 字段汇总值 | 计算数据表中指定字段的汇总值。 |
字段级 | 准确性 | 字段最大值 | 计算数据表中指定字段的最大值。 |
字段级 | 准确性 | 字段最小值 | 计算数据表中指定字段的最小值。 |
字段级 | 准确性 | 字段长度校验 | 通过输入字段长度范围,校验DWS表中字段是否在允许范围内。 |
字段级 | 准确性 | 字段值范围校验 | 通过输入字段值范围,校验DWS表中字段值是否在允许范围内。 |
字段级 | 准确性 | 字段时间校验 | 通过输入字段时间范围,校验DWS表中字段时间是否在允许范围内。 注意,当前仅支持DATE和TIMESTAMP类型的字段,不支持TIME格式。 |
字段级 | 有效性 | 身份证校验 | 通过内置的正则表达式规则,校验数据表中指定字段的合法情况。 |
字段级 | 有效性 | 邮箱校验 | 通过内置的正则表达式规则,校验数据表中指定字段的合法情况。 |
字段级 | 有效性 | 正则表达式校验 | 通过输入自定义的正则表达式,校验数据表中指定字段的合法情况。 |
字段级 | 有效性 | IP地址校验 | 通过内置的正则表达式规则,校验数据表中指定字段的合法情况。 |
字段级 | 有效性 | 电话格式校验 | 通过内置的正则表达式规则,校验数据表中指定字段的合法情况。 |
字段级 | 有效性 | 邮编格式校验 | 通过内置的正则表达式规则,校验数据表中指定字段的合法情况。 |
字段级 | 有效性 | 日期格式校验 | 通过内置的正则表达式规则,校验数据表中指定字段的合法情况。 |
字段级 | 有效性 | 合法性校验 | 通过输入自定义的正则表达式,校验数据表中指定字段的合法情况。 |
字段级 | 有效性 | 枚举值校验 | 通过输入自定义的枚举值,校验数据表中指定字段的合法情况。 |
跨字段级 | 一致性 | 字段一致性校验 | 针对相同数据源的不同字段,校验数据表中指定字段是否与参考字段一致。 |
跨字段级 | 准确性 | 跨字段时间校验 | 针对相同DWS数据源的不同字段,通过输入大小关系符号,校验数据表中指定字段是否与参考字段的时间大小关系是否符合预期。 注意,当前仅支持DATE和TIMESTAMP类型的字段,不支持TIME格式。 |
当系统内置规则模板不足以满足您的需求,您可根据实际需要创建规则。目前创建规则的方式包括规则模板和自定义规则:
- 自定义模板:在“数据质量监控 > 规则模板”处,新建规则模板。新建的规则模板系统会自动划分为对应的规则类型,为区分系统内置模板,显示为自定义模板。当前质量作业应用自定义模板时,不支持进行异常数据输出和质量评分。
- 自定义规则:在创建质量作业时,“规则类型”选择为“自定义规则”,然后您可以通过输入完整的SQL语句,定义如何对数据对象进行数据质量监控。
本文以新建自定义模板为例,说明如何创建规则。
1.选择“数据质量监控 > 规则模板”,单击“新建”,在弹出的新建规则模板页面中进行配置。
详见下图:新建规则模板
2.在弹出的新建规则模板页面中输入规则模板名称,选择规则匹配的维度,定义SQL模板并对输出结果进行说明。
- 维度:数据质量支持从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。自定义质量规则时,请对此规则进行维度匹配。
- 定义关系:输入SQL语句,实现对数据的查找。
− 样例:统计表行数,输入 select count(${Column1}) from ${Schema_Table1}
。其中 ${Column1}
通过单击“添加字段参数”生成, ${Schema_Table1}
通过单击“添加库表参数”生成。
- 输出结果说明:对SQL获得结果的每一列进行说明,列说明之间用逗号进行分隔。
− 样例:当定义关系设置为,select max(${Column1}),min(${Column2}) from ${Schema_Table1}
,则输出结果说明为“最大值,最小值”。结果说明应该与
关系定义的输出结果顺序一一对应。
详见下图:配置规则模板
3.单击“确定”后,系统默认发布此规则模板,版本名称默认为V1.0。
管理规则模板
自定义规则模板不支持直接修改已发布的历史版本。当您有修改需求,可以通过发布新版本以修改规则模板,并可以选择下线历史版本且将待下线历史版本关联的作业迁移到新版本上。具体请参见如下操作。
1.选择“数据质量监控 > 规则模板”,在规则模板列表中找到待修改的规则模板,单击操作列的“发布”。
详见下图:发布规则模板
2.支持修改维度,修改输出结果说明和重新定义关系。
3.单击“发布新版本”,在提交发布对话框中,重新设置版本名称,并确认发布。
详见下图:发布新版本
4.提交发布后,单击操作列的“发布历史”,可以查看该规则模板的发布记录,支持查看变化信息、修改版本名称、下线对应版本等。
详见下图:发布历史界面
5.如需下线历史版本,点击历史版本最右侧的“下线”按钮。
- 如果该版本没有关联作业,点击确认即可下线。
- 如果该版本存在关联作业,需要选择迁移版本,将新版本与作业关联后,点击确认才能完成下线。
详见下图:迁移版本并下线
6.发布历史处支持进行版本比对,直观展示修改点。
详见下图:比对版本
导出规则模板
系统支持将自定义的规则模板批量导出,一次最多可导出200个规则模板。
1.选择“数据质量监控 > 规则模板”,选择要导出的自定义规则模板。
2.单击“导出”,弹出“导出规则模板”对话框。
3.单击“导出”,切换到“导出记录”页签。
4.在导出文件列表中,单击最新导出文件对应的“下载”,可将规则模板的Excel表格下载到本地。
导入规则模板
系统支持将自定义的规则模板批量导入,一次最大可导入1M数据的文件,并且最多200个规则模板。
1.选择“数据质量监控 > 规则模板”,单击“导入”,弹出“导入规则模板”对话框。
2.在“导入配置”页签,选择模板名称重名策略。
- 终止:如果模板名称有重复,则全部导入失败。
- 跳过:如果模板名称有重复,会忽略后继续导入。
3.单击“上传文件”,选择准备好的数据文件。
说明可通过如下两种方式填写数据文件:
(推荐使用)通过“导出”功能,可将数据直接/或修改后批量导入系统。
通过“下载Excel模板”,将数据填写好再导入至系统中。
4.配置目录的映射资源信息,选择导入后的规则模板存储目录。
5.单击“导入”,将填好的Excel表格模板导入到系统。
6.单击“导入记录”页签,可查看对应的导入记录。