前提条件
- 已购买开通翼MapReduce产品。
- 已配置资源组。
- 已完成集群注册。
- 已在 数据源管理新增来源和目标数据源。
进入页面
- 单击左上方的图标,选择全部产品 > 数据集成 > 任务配置 > 任务管理。
新建任务入口
在任务管理页面,选择来源、目标、任务引擎、同步方式,点击“开始创建”按钮进行同步任务配置。
新建离线同步任务
1.填写基本信息
基本信息 | 说明 |
---|---|
任务名称 | 必填项,数据同步任务的名称。不可重复,支持中文、英文、数字、下划线(_),且只能以英文或中文开头,1~64个字符。 |
任务分组 | 必填项,选择任务所属分组。 |
任务描述 | 可选项,对任务的说明。 |
2.选择数据来源
完成基本信息填写后,首先需要在数据来源配置离线同步任务节点的读取端数据源,以及需要同步的表等信息。
此处以MySQL为例:
基本信息 | 说明 |
---|---|
来源数据源 | 必填项,选择数据源名称。 |
来源数据库 | 必填项,选择数据库名称。 |
来源表名 | 必填项,选择所选数据库的已有数据表。 |
来源数据筛选条件 | 可选项,添加筛选条件过滤数据来源中需要同步的数据。 |
一次从结果集中提取的结果行数 | 必填项,一次性批量提交的记录数大小,默认2000行。该值可以极大减少数据同步系统与 Hive 的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程 OOM 异常。 |
2.选择数据去向
完成数据来源的配置后,可以在下方配置数据去向的数据源,以及需要写入的表信息等。
此处以Hive为例:
基本信息 | 说明 |
---|---|
目标数据源 | 必填项,选择数据源名称。 |
目标数据库 | 必填项,选择数据库名称。 |
目标表名 | 必填项,选择所选数据库下的数据表。 |
写入模式 | 必填项,支持追加和覆盖模式。 追加模式是指在数据集成过程中,新数据添加到目标数据库中,不会修改或删除任何现有的数据。这种模式适用于那些需要保留所有历史数据的场景,例如日志数据等。 覆盖模式是指在数据集成过程中,新数据会替换目标数据库中的现有数据。在执行时会先清空(TRUNCATE)表数据,再写入新数据。这种模式适用于关注最新数据的场景,例如实时数据更新等。 |
3.配置字段映射
在完成数据来源和数据去向的配置后,需要指定数据来源端和去向端的映射关系。支持同名映射、同行映射以及自定义映射。
字段映射 | 说明 |
---|---|
同名映射 | 根据字段名称建立映射关系,首次显示字段时,默认采取同名映射。无法映射的部分,目标表字段按照表中字段顺序依次填入选择框中,来源表字段处保留选择框为空,您可自行匹配字段。 |
同行映射 | 来源表字段和目标表字段均按照表中的字段顺序填入选择框中。 |
取消映射 | 取消映射后,您可自行选择源表字段来对应目标表字段。 |
4.填写运行配置
任务并行度是指在数据同步任务中的最大并行读取或并行写入的算子数。
说明提高任务并行度可以增加任务的并发执行程度,从而提高资源利用率和吞吐量。任务并行度影响集群资源的分配,设置越高对应资源消耗也越多。默认值为1,取值范围为1~50。
5.选择高级配置
选择是否开启数据对账功能。数据对账根据数据行数校验数据来源和目标的数据一致性。离线任务在数据同步执行成功后执行数据对账任务。若同步任务执行失败,则不会执行数据对账任务。
配置任务的调度策略。支持手动执行或设置cron表达式调度离线任务。
6.填写Flink运行配置
高级配置 | 说明 |
---|---|
执行队列 | yarn.application.queue,用于指定数据集成任务在yarn的执行队列。 |
Task Slot并发数 | taskmanager.numberOfTaskSlots,可用于执行并行任务的资源单元。用于任务分配、负载均衡以及容错和高可用性的实现。Task Slot并发数是静态的概念,是指taskmanager具有的并发执行能力。 |
jobmanager内存配置 | jobmanager.memory.process.size,jobmanager进程总内存。 |
taskmanager内存配置 | taskmanager.memory.process.size,taskmanager进程总内存。 |
其他配置 | 其他Flink运行配置,多个配置以逗号,分隔。 |
新建实时同步任务
- 填写基本信息
基本信息 | 说明 |
---|---|
任务名称 | 必填项,数据同步任务的名称。不可重复,支持中文、英文、数字、下划线(_),且只能以英文或中文开头,1~64个字符。 |
任务分组 | 必填项,选择任务所属分组。 |
任务描述 | 对任务的说明。 |
2.选择数据来源
完成基本信息填写后,首先需要在数据来源侧配置实时同步任务的读取端数据源,以及需要同步的表等信息。
此处以MySQL为例:
基本信息 | 说明 |
---|---|
来源数据源 | 必填项,选择数据源名称。 |
来源数据库 | 必填项,选择数据库名称。 |
来源表名 | 必填项,选择所选数据库下的数据表。 |
3.选择数据去向
完成数据来源的配置后,可以在下方选择数据去向的数据源。
此处以Hudi为例:
基本信息 | 说明 |
---|---|
目标数据源 | 必填项,选择数据源名称。 |
目标数据库 | 必填项,选择数据库名称。 |
目标表名 | 必填项,选择所选数据库下的数据表。 |
4.填写运行配置
任务并行度是指在数据同步任务中的最大并行读取或并行写入的算子数。
说明提高任务并行度可以增加任务的并发执行程度,从而提高资源利用率和吞吐量。任务并行度影响集群资源的分配,设置越高对应资源消耗也越多。默认值为1,取值范围为1~50。
5.选择高级配置
选择是否开启数据对账功能。数据对账用于校验数据来源和目标的数据一致性。实时任务可设置调度周期执行数据对账任务。对账任务会占用同步资源,不建议设置调度过于频繁,可按天级别设置对账任务。
6.填写Flink运行配置
高级配置 | 说明 |
---|---|
执行队列 | yarn.application.queue,用于指定数据集成任务在yarn的执行队列。 |
Task Slot并发数 | taskmanager.numberOfTaskSlots,可用于执行并行任务的资源单元。用于任务分配、负载均衡以及容错和高可用性的实现。Task Slot并发数是静态的概念,是指taskmanager具有的并发执行能力。 |
Jobmanager内存配置 | jobmanager.memory.process.size,jobmanager进程总内存。 |
Taskmanager内存配置 | taskmanager.memory.process.size,taskmanager进程总内存。 |
其他配置 | 其他Flink运行配置,多个配置以逗号,分隔。 |