前提条件
- 已购买开通翼MapReduce产品。
- 已完成集群注册。
- 已配置资源组。
- 已在 数据源管理新增数据源。
操作步骤
- 单击左上方的图标,选择全部产品 > 数据集成 >任务配置 > 任务管理。
新建任务入口
在任务管理页面,选择来源、目标源、任务引擎、同步方式,点击"开始创建"按钮进行同步任务配置。
新建离线同步任务
1.填写基本信息
基本信息 | 说明 |
---|---|
任务名称 | 必填项,数据接入任务的名称。不可重复,支持中文、英文、数字、下划线(_),且只能以英文或中文开头,1~64个字符。 |
任务分组 | 必填项,选择任务所属分组。 |
任务描述 | 可选项,对任务的说明。 |
2.选择数据来源
完成基本信息填写后,首先需要在数据来源配置离线同步任务节点的读取端数据源,以及需要同步的表等信息。
此处以MySQL为例:
基本信息 | 说明 |
---|---|
来源数据源 | 必填项,选择数据源名称。 |
来源数据库 | 必填项,选择数据库名称。 |
来源表名 | 必填项,所选数据库的已有数据表。 |
来源数据筛选条件 | 可选项,用于过滤数据来源中错误或不相关的数据。 |
一次从结果集中提取的结果行数 | 必填项,一次性批量提交的记录数大小,该值可以极大减少数据同步系统与 Hive 的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程 OOM 异常。默认2000行。 |
2.选择数据去向
完成数据来源的配置后,可以在下方配置数据去向的数据源,以及需要写入的表信息等。
此处以Hive为例:
基本信息 | 说明 |
---|---|
目标数据源 | 必填项,选择数据源名称。 |
目标数据库 | 必填项,选择数据库。 |
目标表名 | 必填项,选择数据表。 |
元数据存储URI | 必填项,Hive元数据连接地址,hive-site.xml获取hive.metastore.uris。 |
Hive元数据URI可登录翼MR Manager获取。
登录翼MR Manager>运维与配置 > 配置管理 > 配置管理-配置管理概述, 选择Hive集群、点击hive-site.xml获取hive.metastore.uris参数值。
3.配置字段映射
在完成数据来源和数据去向的配置后,需要指定数据来源端和去向端的映射关系。支持同名映射 、同行映射以及自定义映射。
字段映射 | 说明 |
---|---|
同名映射 | 根据字段名称建立映射关系,首次显示字段时,默认采取同名映射。无法映射的部分,目标表字段按照表中字段顺序依次填入选择框中,来源表字段处保留选择框为空,您可自行匹配字段。 |
同行映射 | 来源表字段和目标表字段均按照表中的字段顺序填入选择框中。 |
取消映射 | 取消映射后,您可自行选择源表字段来对应目标表字段。 |
4.填写高级配置
任务并行度是指在数据同步任务中的最大并行读取或并行写入的算子数。
说明并发数会影响数据同步的效率。并发设置越高,对应的资源消耗也就越多。但由于资源限制或任务本身的特性等原因,实际执行时的并发数可能会小于或等于设定的值。默认情况下,任务并行度为1,其取值范围为1-50。
5.选择任务配置
配置任务的调度策略。支持手动执行和cron表达式调度配置离线任务。
新建实时同步任务
1.填写基本信息
基本信息 | 说明 |
---|---|
任务名称 | 必填项,数据接入任务的名称。不可重复,支持中文、英文、数字、下划线(_),且只能以英文或中文开头,1~64个字符。 |
任务分组 | 必填项,选择任务所属分组。 |
任务描述 | 对任务的说明。 |
2.选择数据来源
完成基本信息填写后,首先需要在数据来源侧配置实时同步任务的读取端数据源,以及需要同步的表等信息。
此处以TeleDB为例:
基本信息 | 说明 |
---|---|
来源数据源 | 必填项,选择数据源名称。 |
来源数据库 | 必填项,选择来源数据库名称。 |
来源表 | 必填项,选择来源表名称。 |
serverId | 必填项,用于连接到MySQL集群的客户端,不可与其他任务的serverId重复。 |
3.选择数据去向
完成数据来源的配置后,可以在下方选择数据去向的数据源。
此处以Hudi为例:
基本信息 | 说明 |
---|---|
目标数据源 | 必填项,选择目标数据源名称。 |
目标数据库 | 必填项,选择目标数据库名称。 |
目标表 | 必填项,选择目标表名称。 |
4.填写高级配置
任务并行度是指在数据同步任务中的最大并行读取或并行写入的算子数。
说明并发数会影响数据同步的效率。并发设置越高,对应的资源消耗也就越多。但由于资源限制或任务本身的特性等原因,实际执行时的并发数可能会小于或等于设定的值。默认情况下,任务并行度为1,其取值范围为1-50。