为什么并行度大于待处理的block数目时，CarbonData仍需要额外的executor？

更新时间：2024-07-24 GMT+08:00

查看PDF

CarbonData块分布对于数据处理进行了如下优化：

为了优化并行数据处理及并行读取块数据，CarbonData根据块的局域性申请executor，因此CarbonData可获得所有节点上的executor。

为了优化并行数据处理及并行读取块数据，运用动态分配的用户需配置以下特性。

使用参数“spark.dynamicAllocation.executorIdleTimeout”并将此参数值设置为15min（或平均查询时间）。
正确配置参数“spark.dynamicAllocation.maxExecutors”，不推荐使用默认值（2048），否则CarbonData将申请最大数量的executor。
对于更大的集群，配置参数“carbon.dynamicAllocation.schedulerTimeout”为10～15sec，默认值为5sec。
配置参数“carbon.scheduler.minRegisteredResourcesRatio”为0.1～1.0，默认值为0.8。只要达到此参数值，块分布可启动。

父主题： CarbonData常见问题

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消