查看DLI队列负载
场景概述
如果需要确认DLI队列的运行状态,决定是否运行更多的作业时需要查看队列负载。
操作步骤
- 在控制台搜索“云监控服务 CES”。
- 进入CES后,在页面左侧“云服务监控”列表中,单击“数据湖探索”。
- 选择队列进行查看。
如何判断当前DLI队列中的作业是否有积压?
问题描述
需要查看DLI的队列中作业状态为“提交中”和“运行中”的作业数,判断当前队列中的作业是否有积压。
解决方案
可以通过“云监控服务 CES”来查看DLI队列中不同状态的作业情况,具体操作步骤如下:
-
在控制台搜索“云监控服务 CES”,进入云监控服务控制台。
-
在左侧导航栏选择“云服务监控 > 数据湖探索”,进入到云服务监控页面。
-
在云服务监控页面,“名称”列对应队列名称,单击对应队列名称,进入到队列监控页面。
-
在队列监控页面,分别查看以下指标查看当前队列的作业运行情况。
a.“提交中作业数”:展示当前队列中状态为“提交中”的作业数量。
b.“运行中作业数”:展示当前队列中状态为“运行中”的作业数量。
c.“已完成作业数”:展示当前队列中状态为“已成功”的作业数量。
如何将老版本的Spark队列切换成通用型队列
当前DLI服务包括“SQL队列”和“通用队列”两种队列类型。 其中,“SQL队列”用于运行SQL作业,“通用队列”兼容老版本的Spark队列,用于运行Spark作业和Flink作业。
通过以下步骤,可以将老版本的“Spark队列”转换为新的“通用队列”。
- 重新购买“通用队列”。
- 将在旧的“Spark队列”中的作业迁移到新的“通用型队列”中,即在提交Spark作业时指定新的队列。
- 释放旧的“Spark队列”,即删除或退订队列。
为什么云监控CES服务看不到DLI队列的资源运行情况?
DLI队列在没有作业运行时没有资源和流量的使用,该场景下在CES则不会显示该队列的运行情况。
购买了64CU的队列资源,运行Spark作业时如何分配?
在DLI中,64CU=64core256G。
在对应的Spark作业中,如果Driver占用了4core16G,那么Executor能占用的就是60core 240G。
创建扩容任务时 ,提示Queue plans create failed. The plan xxx target cu is out of quota报错
场景概述
创建弹性扩缩容定时任务时界面报错,提示信息为:Queue plans create failed. The plan xxx target cu is out of quota。
解决方法
该问题是当前帐号的CU配额不够导致,需要申请扩大配额。
在default队列执行DLI SQL失败,上报超时异常
问题现象
使用default队列提交SQL作业,作业运行异常,排查作业日志显示Execution Timeout异常。异常日志参考如下:
[ERROR] Execute DLI SQL failed. Please contact DLI service.
[ERROR] Error message:Execution Timeout
问题原因
default队列是系统预置的默认公共队列,主要用来体验产品功能。当多个用户通过该队列提交作业时,容易发生流控,从而导致作业提交失败。
解决方案
建议不要使用default队列提交作业,可以在DLI控制台新购买SQL队列来提交作业。具体步骤如下:
- 在DLI管理控制台的左侧导航栏中,选择“队列管理”。
- 单击“队列管理”页面右上角“购买队列”进行创建队列。
- 在“购买队列”页面,选择对应参数。注意“队列类型”选择“SQL队列”。
- 使用新创建的队列重新提交SQL作业。