16T的文本数据转成4T Parquet数据失败

问题

使用默认配置时，16T的文本数据转成4T Parquet数据失败，报如下错误信息。

Job aborted due to stage failure: Task 2866 in stage 11.0 failed 4 times, most recent failure: Lost task 2866.6 in stage 11.0 (TID 54863, linux-161, 2): java.io.IOException: Failed to connect to /10.16.1.11:23124
at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:214)
at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:167)
at org.apache.spark.network.netty.NettyBlockTransferService$$anon$1.createAndStart(NettyBlockTransferService.scala:92)

使用的默认配置如表1所示。

表1 参数说明
参数	描述	取值示例
spark.sql.shuffle.partitions	shuffle操作时，shuffle数据的分块数。	200
spark.shuffle.sasl.timeout	shuffle操作时SASL认证的超时时间。单位：秒。	120s
spark.shuffle.io.connectionTimeout	shuffle操作时连接远程节点的超时时间。单位：秒。	120s
spark.network.timeout	所有涉及网络连接操作的超时时间。单位：秒。	360s

回答

由于当前数据量较大，有16T，而分区数只有200，造成每个task任务过重，才会出现上面的问题。

为了解决上面问题，需要对参数进行调整。

增大partition数，把任务切分的更小。
增大任务执行过程中的超时时间。

在客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中配置如下参数。

表2 参数说明
参数	描述
spark.sql.shuffle.partitions	shuffle操作时，shuffle数据的分块数，建议修改为4501。
spark.shuffle.sasl.timeout	shuffle操作时SASL认证的超时时间，建议修改为2000s。
spark.shuffle.io.connectionTimeout	shuffle操作时连接远程节点的超时时间，建议修改为3000s。
spark.network.timeout	所有涉及网络连接操作的超时时间，建议修改为3600s。

父主题： SQL和DataFrame

上一篇：Repartition时有部分Partition没数据

下一篇：当表名为table时，执行相关操作时出现异常

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消