SQL作业包括在SQL编辑器窗口执行SQL语句,导入数据和导出数据等操作。
SQL作业管理主要包括如下功能:
- 查找作业:筛选符合对应条件的作业。
- 查看作业详情:显示作业的详细信息。
- 终止作业:终止“提交中”或“运行中”的作业。
- 导出查询结果:当前控制台界面查询结果最多显示1000条数据,如果需要查看更多或者全量数据,则可以通过该功能将数据导出到OBS获取。
作业管理页面
在总览页面单击“SQL作业”简介,或在左侧导航栏单击“作业管理”>“SQL作业”,可进入SQL作业管理页面。SQL作业管理页面显示所有SQL作业,作业数量较多时,系统分页显示,可根据需要跳转至指定页面。您可以查看任何状态下的作业。作业列表默认按创建时间降序排列,创建时间最近的作业显示在最前端。
作业管理参数
参数 参数说明 队列
作业所属队列的名称。
用户名
执行该作业的用户名。
类型
作业的类型,包括如下。
l IMPORT:导入数据到DLI的作业。
l EXPORT:从DLI导出数据的作业。
l DCL:包括传统DCL,以及队列权限相关的操作。
l DDL:与传统DDL操作一致,即创建和删除数据库,创建和删除表的作业。
l QUERY:执行SQL查询数据的作业。
l INSERT:执行SQL插入数据的作业。
l UPDATE:更新数据。
l DELETE:删除SQL作业。
l DATA_MIGRATION:数据迁移。
l RESTART_QUEUE:重启队列。
l SCALE_QUEUE: 队列规格变更(扩容/缩容)。
状态
作业的状态信息,包括如下。
l 提交中
l 运行中
l 已成功
l 已取消
l 已失败
l 规格变更中
执行语句
作业的具体SQL语句以及导出、建表的操作,此处展示操作的描述。
单击可复制对应的语句。
运行时长
作业的运行时长。
创建时间
每个作业的创建时间,可按创建时间顺序或倒序显示作业列表。
操作
l 编辑:重新编辑修改该作业。
l 终止:
− 当作业状态在“提交中”和“运行中”时,“终止”按钮才生效。
− 当作业状态为“已成功”、“已失败”、“已取消”的作业不能终止。
− 当“终止”按钮为灰色时,表示无法执行终止操作。
l 重新执行:重新执行该作业。
l SparkUI:单击后,将跳转至Spark任务运行情况界面。
说明
l 新建队列,运行作业时会重新拉集群,大概需要10分钟左右才能拉好集群,在集群创建好之前单击SparkUI会导致缓存空的projectID,从而导致无法查看SparkUI。建议使用专属队列,集群不会被释放,就不会有该问题,或者提交作业后等一段时间再查看SparkUI,确保集群已经拉好了,不要立即单击SparkUI。
l 目前DLI配置SparkUI只展示最新的100条作业信息。
l QUERY作业和异步DDL作业除上述操作外,还包括:
− 查看结果:查看作业运行结果。
− 导出结果:将作业运行结果导出至用户创建的OBS桶中。具体操作请见导出查询结果。
l EXPORT作业除上述操作外,还包括:
− 立即下载
l 归档日志:将作业日志保存到系统创建的DLI临时OBS数据桶中。
说明
default队列下运行的作业或者该作业为同步作业时不支持归档日志操作。
查找作业
在“SQL作业”页面,可以通过以下方式对作业进行过滤筛选,在页面中显示符合对应条件的作业。
- 选择队列名称
- 设置日期范围
- 输入用户名/执行语句/作业ID
- 选择创建时间顺序/倒序排列
- 选择作业类型
- 选择作业状态
- 选择运行时长顺序/倒序排列
查看作业详情
在“SQL作业”页面,选中一条作业,单击该作业对应的,可查看该条作业的详细信息。
不同类型的作业,显示的作业详情不同。作业详情根据作业类型、状态和配置选项不同显示可能存在差异,具体以实际界面显示为准。以导入数据作业,建表作业和查询作业为例说明。其他作业类型支持查看的详细信息请以控制台信息为准。
- 导入数据(load data)作业(作业类型:IMPORT),包括以下信息:队列,作业ID,用户名,类型,状态,执行语句,运行时长,创建时间,结束时间,参数设置,结果条数,已扫描数据,扫描数据条数,错误记录条数,存储路径,数据格式,数据库,表,表头,分隔符,引用字符,转义字符,日期格式,时间戳格式,CPU累计使用量,输出字节。
- 建表(create table)作业(作业类型:DDL),包括以下信息:队列,作业ID,用户名,类型,状态,执行语句,运行时长,创建时间,结束时间,参数设置,结果条数,已扫描数据,数据库。
- 查询(select)作业(作业类型:QUERY),包括以下信息:队列,作业ID,用户名,类型,状态,执行语句,运行时长,创建时间,结束时间,参数设置,结果条数(运行成功,可导出结果),已扫描数据,执行用户,结果状态(运行成功,可查看结果;运行失败,显示失败原因),数据库,CPU累计使用量,输出字节。
说明
CPU累计使用量:作业执行过程的CPU消耗总和,单位:Core*ms
输出字节:作业执行完成后输出的字节数。
终止作业
在“SQL作业”页面,可单击“操作”列的“终止”,终止“提交中”或“运行中”的作业。
导出查询结果
当前控制台界面查询结果最多显示1000条数据,如果需要查看更多或者全量数据,则可以通过该功能将数据导出到OBS获取。具体操作步骤如下:
导出查询结果的操作入口有两个,分别在“SQL作业”和“SQL编辑器”页面。
- 在“作业管理”>“SQL作业”页面,可单击对应作业“操作”列“更多”中的“导出结果”,可导出执行查询后的结果。
- 在“SQL编辑器”页面,查询语句执行成功后,在“查看结果”页签右侧,单击“导出结果”,可导出执行查询后的结果。
说明若查询结果中无数值列,则无法导出查询结果。
参数说明
参数名称 描述 数据格式 导出查询结果数据的文件格式。支持json和csv格式。
队列
选择运行的队列。SQL作业只能在队列类型为“SQL队列”下执行。具体队列创建可以参考6.3 创建队列。
压缩格式
导出查询结果数据的压缩方式,选择如下压缩方式。
l none
l bzip2
l deflate
l gzip
存储路径
输入或选择OBS的路径。
说明
l 选择OBS桶后,请在文本框中定义文件夹名称,若该文件夹不存在,则会在OBS中创建。
l 文件夹名称不能包含下列特殊字符:\ / : * ? " < > |,并且不能以“.”开头和结尾。
导出方式
导出查询结果数据的保存方式。
l 随导出创建指定路径:指定的导出目录必须不存在,如果指定目录已经存在,系统将返回错误信息,无法执行导出操作。
l 覆盖指定路径:在指定目录下新建文件,会删除已有文件。
结果条数
导出查询结果数据的数量。不填写数值或数值为“0”时,导出全部结果。
表头
设置导出查询结果数据是否含表头。