文档首页/ 数据湖探索 DLI/ 常见问题/ SQL作业类/ SQL作业开发类/ SQL作业运行慢如何定位

更新时间：2024-11-08 GMT+08:00

查看PDF

SQL作业运行慢如何定位

作业运行慢可以通过以下步骤进行排查处理。

可能原因1：FullGC原因导致作业运行慢

判断当前作业运行慢是否是FullGC导致：

登录DLI控制台，单击“作业管理 > SQL作业”。
在SQL作业页面，在对应作业的“操作”列，单击“更多 > 归档日志”。
图1 归档日志
在OBS目录下，获取归档日志文件夹，详细如下。
- Spark SQL作业：
  查看带有“driver”或者为“container_xxx_000001”的日志文件夹则为需要查看的Driver日志目录。
  图2 带有driver的归档日志文件夹名示例
  
  图3 container_xxx_000001归档日志文件夹示例
- Spark Jar作业：
  Spark Jar作业的归档日志文件夹以“batch”开头。
  图4 Spark Jar作业归档日志文件夹名示例
进入归档日志文件目录，在归档日志文件目录下，下载“gc.log.*”日志。
打开已下载的“gc.log.*”日志，搜索“Full GC”关键字，查看日志中是否有时间连续，并且频繁出现“Full GC”的日志信息。
图5 Full GC日志

FullGC问题原因定位和解决：

原因1 小文件过多：当一个表中的小文件过多时，可能会造成Driver内存FullGC。

登录DLI控制台，选择SQL编辑器，在SQL编辑器页面选择问题作业的队列和数据库。
执行以下语句，查看作业中表的文件数量。“表名”替换为具体问题作业中的表名称。
```
select count(distinct fn)  FROM
(select input_file_name() as fn from 表名) a
```
如果小文件过多，则可以参考如何合并小文件来进行处理。

原因2 广播表：广播也可能会造成Driver内存的FullGC。

登录DLI控制台，单击“作业管理 > SQL作业”。
在SQL作业页面，在对应作业所在行，单击按钮，查看作业详情，获取作业ID。
图6 获取作业ID
在对应作业的“操作”列，单击“Spark UI”，进入“Spark UI”页面。
在“Spark UI”页面，在上方菜单栏选择“SQL”。参考下图，根据作业ID，单击Description中的超链接。
图7 单击作业链接
查看对应作业的DAG图，判断是否有BroadcastNestedLoopJoin节点。
图8 作业的DAG图。
如果存在广播，则参考SQL作业中存在join操作，因为自动广播导致内存不足，作业一直运行中处理。

可能原因2：数据倾斜

判断当前作业运行慢是否是数据倾斜导致：

登录DLI控制台，单击“作业管理 > SQL作业”。
在SQL作业页面，在对应作业所在行，单击按钮，查看作业详情信息，获取作业ID。
图9 获取作业ID
在对应作业的“操作”列，单击“Spark UI”，进入到Spark UI页面。
在“Spark UI”页面，在上方菜单栏选择“Jobs”。参考下图，根据作业ID，单击链接。
根据Active Stage可以看到当前正在运行的Stage运行情况，单击Description中的超链接。
在Stage中，可以看到每一个Task开始运行时间“Launch Time”，以及Task运行耗时时间“Duration”。
单击“Duration”，可以根据耗时进行排序，排查是否存在单个Task耗时过长导致整体作业时间变长问题。
参考图10可以看到数据倾斜时，单个任务的shuffle数据远大于其他Task的数据，导致该任务耗时时间变长。
图10 数据倾斜示例图

数据倾斜原因和解决：

Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。

对join连接条件进行group by 和count，统计每个连接条件的key值的数量。示例如下：
lefttbl表和righttbl表进行join关联，其中lefttbl表的num为连接条件的key值。则可以对lefttbl.num进行group by和count统计。
```
SELECT * FROM lefttbl a LEFT join righttbl b on a.num = b.int2；
SELECT count(1) as count,num from lefttbl  group by lefttbl.num ORDER BY count desc;
```
从图11可以看出，num为1的数量远大于其他值的数量。
图11 示例数据统计演示
考虑在对应key值上添加concat(cast(round(rand() * 999999999) as string)随机数进行打散。
如果确实因为单个key值倾斜严重且不可对key值拼接随机值打散，则参考执行SQL作业时产生数据倾斜怎么办？处理。

父主题： SQL作业开发类

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消