数据目录组件有什么用?
数据目录的核心是通过元数据采集任务,采集并展示企业的数据资产地图,包括所有的元数据信息和数据血缘关系。
数据目录支持采集哪些对象的资产?
数据目录目前支持采集的资产有:数据仓库服务(DWS)、MapReduce服务(MRS HBase)、MapReduce服务(MRS Hive)、MySQL、云数据库 RDS(DataArts Studio仅支持MySQL和PostgreSQL数据库)。
什么是数据血缘关系?
大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。
数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征:
- 归属性 :一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。
- 多源性 :同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。
- 可追溯性 :数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。
- 层次性 :数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。
如图所示数据血缘关系示例
数据目录如何可视化展示数据血缘?
数据血缘展示,首先要需要有相关的作业调度,其次要进行元数据采集。