前提条件
元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS(MySQL)、RDS(PostgreSQL)和ORACLE类型的数据源,首先需要在管理中心创建数据连接。
新增采集任务
- 在DataArts Studio控制台首页,选择实例,点击“进入控制台”,选择对应工作空间的“数据目录”模块,进入数据目录页面。
选择数据目录
- 选择“元数据采集 > 任务管理”。
- 选择采集任务所归属的目录。如果未新建目录请参见下图创建进行。
- 单击页面上方“新建”或者右键单击任务菜单,单击“新增任务”,在弹出的对话框中,配置相关参数,新建采集任务。
新建任务有如下图所示的两个入口。
a.配置基本参数。
基本配置说明
参数名 | 说明 |
---|---|
任务名称 | 采集任务的名称,只能包含中文、英文字母、数字和下划线,且长度不能超过62个字符。 |
描述 | 为更好的识别采集任务,此处加以描述信息。描述信息长度不能超过255个字符。 |
选择目录 | 采集任务的存储目录,可选择已创建的目录。目录创建请参见下图。 |
目录创建
b.配置数据源信息、
数据源信息参数说明
参数名 | 说明 |
---|---|
数据源类型 | 从下拉列表中选择数据源类型。 说明 元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS(MySQL)、RDS(PostgreSQL)和ORACLE类型的数据源,首先需要在管理中心创建数据连接。 |
OBS桶 | 选择待采集数据归属的OBS桶,仅数据源类型为OBS时,呈现此参数。 |
数据连接 | 所选数据连接类型中已创建数据连接,支持从下拉列表中选择。 所选数据连接类型中未创建数据连接,请单击“新建”,创建新的数据连接。 |
OBS路径 | 选择待采集数据在OBS桶中的存储路径,仅数据源类型为OBS时,呈现此参数。 |
采集范围 | 选择待采集数据的采集范围,仅数据源类型为OBS时,呈现此参数,原因是obs桶中是分目录层级的。 选择“当前文件夹”,采集任务仅采集obs路径中设置的文件夹下的对象。 选择“当前文件夹和所有子文件夹”,采集任务会采集obs路径中设置的文件夹下所有的对象,包括其子文件夹下的对象 |
采集内容 | 选择待采集数据的采集内容,仅数据源类型为OBS时,呈现此参数,原因是obs桶中是分目录层级的。 选择“文件夹和对象”,采集任务采集文件夹和对象。 选择“ 文件夹”,采集任务仅采集文件夹。 |
数据库和schema | 仅数据源类型为DWS时,呈现此参数。 单击数据库和schema后的“设置”,设置采集任务扫描的数据库和schema范围。当不进行设置时,默认选择该数据连接下的所有数据库和schema。 单击“清除”,可对已选择的数据库和schema进行修改。 |
命名空间 | 仅数据源类型为MRS HBase时,呈现此参数。 单击命名空间后的“设置”,设置采集任务扫描的命名空间范围。当不进行设置时,默认选择该数据连接下的所有命名空间 。 单击“清除”,可对已选择的命名空间进行修改。 |
数据库 数据表 | 呈现待采集的数据库和数据表。 单击数据库后的“设置”,设置采集任务扫描的数据库范围。当不进行设置时,默认选择该数据连接下的所有数据库 。 单击数据表后的“设置”,设置采集任务扫描的数据表范围。当不进行设置时,默认选择数据库下的所有数据表。针对数据连接类型为Mysql、Oracle和DLI的数据表,支持按照正则表达式过滤需要采集的表。 当数据库和数据表均不设置时,则采集任务扫描的数据范围为该数据连接下的所有数据表。 单击“清除”,可对已选择的数据库和数据表进行修改。 |
选择图 | 仅数据源类型为GES时,呈现此参数。 选择存储了以“关系”为基础的结构数据的图。 |
选择集群 | 仅数据源类型为CSS时,呈现此参数。 选择待采集数据存储的CSS集群。 您也可以单击“新建”,创建CSS集群,创建完成后单击“刷新”,选择新建的CSS集群即可。 |
绑定Agent | 管理CloudTable/GES/CSS类型的数据连接,请选择CDM集群提供的Agent。 用户也可以单击“新建”,创建新的Agent,创建完成后单击“刷新”,选择新的Agent即可。 |
索引 | 仅数据源类型为CSS时,呈现此参数。 用于存储Elasticsearch的数据,类似关系型数据库的Database。是一个或多个分片分组在一起的逻辑空间。 |
c.元数据采集参数配置
元数据采集参数说明
参数名 | 说明 |
---|---|
数据源元数据已更新 | 当数据连接中元数据发生变化时,通过配置更新策略,设置数据目录中元数据的更新方式。 需要注意的是配置的更新、删除策略是作用在用户配置的数据库、数据表的范围内的。 勾选“仅更新数据目录中的元数据”:采集任务仅更新数据目录已经采集到的元数据。 勾选“仅添加新元数据”:采集任务仅采集数据源中存在,但是数据目录中不存在的元数据。 勾选“更新数据目录中的元数据、添加新元数据”:采集任务全量同步数据源中的元数据。 勾选“忽略更新、添加操作”:不采集数据源中的元数据。 |
数据源元数据已删除 | 当数据连接中元数据发生变化时,通过配置删除策略,设置数据目录中元数据的更新方式。 勾选“从数据目录中删除元数据”:当数据源中的某些元数据已经被删除,数据目录中也将同步删除对应的元数据。 勾选“忽略删除”:当数据源中的某些元数据已经被删除,数据目录中不同步删除对应元数据。 |
d.勾选数据概要时的参数配置。
数据概要参数说明
参数名 | 说明 |
---|---|
基于全量数据 | 基于已采集的全量数据在数据目录中生成数据概要。 适用于数据量较少(100W以下)的情况。 |
基于采样数据,采样数量为x条 | 基于已采集的全量数据在数据目录中生成数据概要。 适用于数据量较多的情况。 |
基于全量数据,随机取x%的数据 | 基于已采集的全量数据在数据目录中生成数据概要。 适用于数据量较多的情况。 |
DLI队列 | 选择获取profile数据,执行DLI SQL用的队列。 勾选“采集唯一值”表示只统计已采集的表中的唯一值的个数,并在数据目录中的概要页签呈现。 |
数据格式 | 当存储在OBS桶中的数据为CSV格式,请依据数据的实际属性进行勾选是否有表头,是否自定义分隔符,是否自定义引用字符,是否自定义转义字符。 |
日期格式 | 当存储在OBS桶中的数据为CSV格式,请依据实际属性配置日期格式,以免影响数据被错误解析。 |
时间戳格式 | 当存储在OBS桶中的数据为CSV格式,请依据实际属性配置时间戳格式,以免影响数据被错误解析。 |
e.数据分类配置说明(仅当数据目录组件中具备数据安全功能时,支持配置该选项;当前暂不支持关联独立数据安全组件中的敏感数据识别规则)。
- 数据分类:勾选此项参见数据分类新建分类规则组或者选中已有分类规则组,实现自动识别数据并添加分类。
- 数据分级:勾选“根据数据分类结果更新数据表密级”,表示可根据匹配的分类规则中,将密级最高的设置为表的密级。
- 数据同步:勾选“手动同步分类结果”,表示“数据目录 > 数据目录 > 列属性”中呈现的数据列,在采集任务执行完毕后,不会自动添加分类和密级属性。需要用户前往“元数据采集 > 任务监控 ”页面,找到任务实例,选择“操作 > 更多 > 扫描结果”,查看采集任务的执行结果,确认分类结果是否匹配。勾选分类匹配字段前的复选框,单击“同步”,即可将分类和密级属性手动同步到资产。
说明仅DWS、DLI数据源支持创建采集任务时添加数据分类,实现自动识别。另外,只可给数据表的列和OBS对象添加分类。
- 单击“下一步”,选择调度方式,支持单次调度和周期调度两种方式。单次调度:超时时间表示如果任务运行的时长超过了设置的超时时间,任务会被认定运行失败。
周期调度的相关参数配置请参见下表:配置周期调度参数。
说明
单次调度会产生手动任务的实例,手动任务的特点是没有调度依赖,只需要手动触发即可。
周期调度会产生周期实例,周期实例是周期任务达到启用调度所配置的周期性运行时间时,被自动调度起来的实例快照。
周期任务每调度一次,便生成一个实例工作流。用户可以对已调度起的实例任务进行日常的运维管理,如查看运行状态,对任务进行终止、重跑等操作。
参数名 | 说明 |
---|---|
生效日期 | 调度任务的生效时间段。 |
调度周期 | 选择调度任务的执行周期,并配置相关参数。 分钟 小时 天 周 |
开始时间 | 周期调度开始的具体时间,与生效日期中的开始时期配合使用。 |
间隔时间 | 两次周期调度之间的间隔时间。 即使上一次调度任务实例未结束,从上次调度开始时间达到间隔时间后,新的调度任务实例也会开始。当前采集任务支持多实例并发运行。 |
结束时间 | 周期调度结束的具体时间,与生效日期中的结束时期配合使用。 |
超时时间 | 单次任务实例的运行超时时间,如果运行时长超过了此处设置,任务会被认定运行失败。 |
启动调度 | 勾选复选框,则表示立即启动此调度任务。 |
- 单击“提交”,采集任务创建成功。
管理采集任务
- 在DataArts Studio控制台首页,选择实例,点击“进入控制台”,选择对应工作空间的“数据目录”模块,进入数据目录页面。
选择数据目录
- 选择“元数据采集 > 任务管理”。
在采集任务页面,可查看所有已创建的采集任务。
管理采集任务
参数名 | 说明 |
---|---|
任务名称 | 采集任务的名称。 单击采集任务名称,可查看该采集任务的采集策略和调度属性。 |
数据源类型 | 数据连接的名称。 |
调度状态 | 显示采集任务的调度方式,单击,可进行筛选。 |
调度周期 | 显示采集任务的调度频率,单击,可进行筛选。 |
描述 | 展示采集任务的描述信息。 |
创建人 | 展示采集任务的创建人。 |
最近运行时间 | 展示采集任务的最近运行时间。 |
操作 | 对已创建的采集任务可进行如下操作: 编辑:支持对采集任务(状态为已启动、未启动、运行失败)的采集策略强相关参数进行修改,不支持修改数据源类型。 运行:单击“运行”,可运行此采集任务,并可在“任务监控”页面查看其状态和相关日志信息。 启动调度:当其状态为“已停止”,则可重新启动调度。 停止调度:当调度状态为“调度中”,则可停止调度。 |