查看所有产品

数据治理中心 DataArts Studio

数据治理中心 DataArts Studio

无相关产品

DLI Spark

更新时间 2023-07-25 17:08:02

最近更新时间: 2023-07-25 17:08:02

本章节主要介绍节点参考的 DLI Spark。

功能

通过DLI Spark节点执行一个预先定义的Spark作业。

参数

用户可参考下表配置DLI Spark节点的参数。

属性参数

参数	是否必选	说明
节点名称	是	节点名称，可以包含中文、英文字母、数字、“_”、“-”、“/”、“<”、“>”等各类特殊字符，长度为1～128个字符。
DLI队列	是	下拉选择需要使用的队列。
作业特性	否	选择自定义镜像和对应版本。仅当DLI队列为容器化队列类型时，出现本参数。自定义镜像是DLI的特性。用户可以依赖DLI提供的Spark或者Flink基础镜像，使用Dockerfile将作业运行需要的依赖（文件、jar包或者软件）打包到镜像中，生成自己的自定义镜像，然后将镜像发布到SWR（容器镜像服务）中，最后在此选择自己生成的镜像，运行作业。自定义镜像可以改变Spark作业和Flink作业的容器运行环境。用户可以将一些私有能力内置到自定义镜像中，从而增强作业的功能、性能。。
作业名称	是	填写DLI Spark作业的名称，只能包含英文字母、数字、“_”，且长度为1~64个字符。默认与节点的名称一致。
作业运行资源	否	选择作业运行的资源规格： 8核32G内存 16核64G内存 32核128G内存
作业主类	是	Spark作业的主类名称。当应用程序类型为“.jar”时，主类名称不能为空。
Spark程序资源包	是	运行spark作业依赖的jars。可以输入jar包名称，也可以输入对应jar包文件的的OBS路径，格式为：obs://桶名/文件夹路径名/包名。在选择资源包之前，您需要先将Jar包及其依赖包上传至OBS桶中，并在“资源管理”页面中新建资源，具体操作请参考管理资源章节中的“新建资源”。
资源类型	是	支持OBS路径和DLI程序包两种类型的资源。 OBS路径：作业执行时，不会上传资源包文件到DLI资源管理，文件的OBS路径会作为启动作业消息体的一部分，推荐使用该方式。 DLI程序包：作业执行前，会将资源包文件上传到 DLI资源管理。
分组设置	否	当“资源类型”选择了“DLI程序包”时，需要设置。可选择“已有分组”，“创建新分组”或“不分组”。
分组名称	否	当“资源类型”选择了“DLI程序包”时，需要设置。选择“已有分组”：可选择已有的分组。选择“创建新分组”：可输入自定义的组名称。选择“不分组”：不需要选择或输入组名称。
主类入口参数	否	用户自定义参数，多个参数请以Enter键分隔。应用程序参数支持全局变量替换。例如，在“全局配置”>“全局变量”中新增全局变量key为batch_num，可以使用{{batch_num}}，在提交作业之后进行变量替换。
Spark作业运行参数	否	以“key/value”的形式设置提交Spark作业的属性，多个参数以Enter键分隔。具体参数请参见Spark Configuration。 Spark参数value支持全局变量替换。例如，在“全局配置”>“全局变量”中新增全局变量key为custom_class，可以使用"spark.sql.catalog"={{custom_class}}，在提交作业之后进行变量替换。说明 Spark作业不支持自定义设置jvm垃圾回收算法。
Module名称	否	DLI系统提供的用于执行跨源作业的依赖模块，访问各个不同的服务，选择不同的模块： CloudTable/MRS HBase: sys.datasource.hbase DDS：sys.datasource.mongo CloudTable/MRS OpenTSDB: sys.datasource.opentsdb DWS: sys.datasource.dws RDS MySQL: sys.datasource.rds RDS PostGre: sys.datasource.rds DCS: sys.datasource.redis CSS: sys.datasource.css DLI内部相关模块： sys.res.dli-v2 sys.res.dli sys.datasource.dli-inner-table
访问元数据	是	是否通过Spark作业访问元数据。

高级参数

参数	是否必选	说明
节点状态轮询时间（秒）	是	设置轮询时间（1~60秒），每隔x秒查询一次节点是否执行完成。
节点执行的最长时间	是	设置节点执行的超时时间，如果节点配置了重试，在超时时间内未执行完成，该节点将不会再重试，直接置为失败状态。
失败重试	是	节点执行失败后，是否重新执行节点。是：重新执行节点，请配置以下参数。 − 最大重试次数 − 重试间隔时间（秒）否：默认值，不重新执行节点。说明如果作业节点配置了重试，并且配置了超时时间，该节点执行超时后将不会再重试，直接置为失败状态。
失败策略	是	节点执行失败后的操作：终止当前作业执行计划：停止当前作业运行，当前作业实例状态显示为“失败”。继续执行下一节点：忽略当前节点失败，当前作业实例状态显示为“忽略失败成功”。挂起当前作业执行计划：暂停当前作业运行，当前作业实例状态显示为“等待运行”。终止后续节点执行计划：停止后续节点的运行，当前作业实例状态显示为“失败”。
空跑	否	如果勾选了空跑，该节点不会实际执行，将直接返回成功。

血缘关系

参数	说明
输入
新建	单击“新建”，在“类型”的下拉选项中选择要新建的类型。可以选择DWS，OBS，CSS，HIVE，CUSTOM和DLI类型。 DWS − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DWS的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DWS的数据库。 − schema（必选）：单击，在弹出的“schema”窗口选择DWS的数据库模式。 − 表名（必选）：单击，在弹出的“表名”窗口选择DWS的数据表。 OBS − 路径（必选）：单击，在弹出的“OBS文件浏览”窗口选择OBS路径。 CSS − 集群名称（必选）：单击，在弹出的“CloudSearch集群”窗口选择CloudSearch集群。 − 索引名称（必选）：输入CSS类型的索引名称。 HIVE − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择HIVE的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择HIVE的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择HIVE的数据表。 CUSTOM − 名称（必选）：输入CUSTOM类型的名称。 − 属性（必选）：输入CUSTOM类型的属性，可新增不止一条。 DLI − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DLI的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DLI的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择DLI的数据表。
确定	单击“确认”，保存节点输入功能的参数配置。
取消	单击“取消”，取消节点输入功能的参数配置。
编辑	单击，修改节点输入功能的参数配置，修改完成后，请保存。
删除	单击，删除节点输入功能的参数配置。
查看表详情	单击，查看节点输入血缘关系创建数据表的详细信息。
输出
新建	单击“新建”，在“类型”的下拉选项中选择要新建的类型。可以选择DWS，OBS，CSS，HIVE，CUSTOM和DLI类型。 DWS − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DWS的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DWS的数据库。 − schema（必选）：单击，在弹出的“schema”窗口选择DWS的数据库模式。 − 表名（必选）：单击，在弹出的“表名”窗口选择DWS的数据表。 OBS − 路径（必选）：单击，在弹出的“OBS文件浏览”窗口选择OBS路径。 CSS − 集群名称（必选）：单击，在弹出的“CloudSearch集群”窗口选择CloudSearch集群。 − 索引名称（必选）：输入CSS类型的索引名称。 HIVE − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择HIVE的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择HIVE的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择HIVE的数据表。 CUSTOM − 名称（必选）：输入CUSTOM类型的名称。 − 属性（必选）：输入CUSTOM类型的属性，可新增不止一条。 DLI − 连接名称（必选）：单击，在弹出的“连接名称”窗口选择DLI的数据连接。 − 数据库（必选）：单击，在弹出的“数据库”窗口选择DLI的数据库。 − 表名（必选）：单击，在弹出的“表名”窗口选择DLI的数据表。
确定	单击“确认”，保存节点输出功能的参数配置。
取消	单击“取消”，取消节点输出功能的参数配置。
编辑	单击，修改节点输出功能的参数配置，修改完成后，请保存。
删除	单击，删除节点输出功能的参数配置。
查看表详情	单击，查看节点输出血缘关系创建数据表的详细信息。

文本反馈

©2025天翼云科技有限公司版权所有

京ICP备 2021034386号

京公网安备11010802043424号

增值电信业务经营许可证A2.B1.B2-20090001