文档首页/ MapReduce服务 MRS/ 组件操作指南（普通版）(巴黎区域)/ 使用CarbonData（MRS 3.x及之后版本）/ CarbonData FAQ/ 为什么并行度大于待处理的block数目时，CarbonData仍需要额外的executor？

更新时间：2022-02-22 GMT+08:00

查看PDF

为什么并行度大于待处理的block数目时，CarbonData仍需要额外的executor？

问题

为什么并行度大于待处理的block数目时，CarbonData仍需要额外的executor？

回答

CarbonData块分布对于数据处理进行了如下优化：

优化数据处理并行度。
优化了读取块数据的并行性。

为了优化并行数据处理及并行读取块数据，CarbonData根据块的局域性申请executor，因此CarbonData可获得所有节点上的executor。

为了优化并行数据处理及并行读取块数据，运用动态分配的用户需配置以下特性。

使用参数“spark.dynamicAllocation.executorIdleTimeout”并将此参数值设置为15min（或平均查询时间）。
正确配置参数“spark.dynamicAllocation.maxExecutors”，不推荐使用默认值（2048），否则CarbonData将申请最大数量的executor。
对于更大的集群，配置参数“carbon.dynamicAllocation.schedulerTimeout”为10～15sec，默认值为5sec。
配置参数“carbon.scheduler.minRegisteredResourcesRatio”为0.1～1.0，默认值为0.8。只要达到此参数值，块分布可启动。

父主题： CarbonData FAQ

上一篇：当初始Executor为0时，为什么INSERT INTO/LOAD DATA任务分配不正确，打开的task少于可用的Executor？

下一篇：为什么在off heap时数据加载失败？

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消