Hudi目的端的作业执行卡Running,读取行数写入行数相等且不再增加怎么解决?
问题描述
CDM写Hudi为两段式,先写到hive临时表,然后再执行spark sql写到Hudi,写入行数统计的是写hive临时表的行数,当行数不再增长时,说明源端数据已经读完写到Hive表中,此时作业正在执行Spark SQL过程中,需要等Spark SQL执行完作业才会结束。
原因分析
打开日志,搜索insert into,找到如下的日志,根据日志中打印的Yarn ApplicationId到MRS Resource Manager上看Yarn任务详情。
执行Spark SQL的速度与租户队列资源强相关,在执行Hudi任务前,请确保租户队列资源充足。