文档首页/ MapReduce服务 MRS/ 组件操作指南（普通版）/ 使用Spark2x（MRS 3.x及之后版本）/ Spark SQL性能调优/ 合并CBO优化

更新时间：2024-06-28 GMT+08:00

合并CBO优化

操作场景

Spark SQL默认支持基于规则的优化，但仅仅基于规则优化不能保证Spark选择合适的查询计划。CBO（Cost-Bsed Optimizer）是一种为SQL智能选择查询计划的技术。通过配置开启CBO后，CBO优化器可以基于表和列的统计信息，进行一系列的估算，最终选择出合适的查询计划。

操作步骤

要使用CBO优化，可以按照以下步骤进行优化。

需要先执行特定的SQL语句来收集所需的表和列的统计信息。
SQL命令如下（根据具体情况选择需要执行的SQL命令）：
- 生成表级别统计信息（扫表）：
  ANALYZE TABLE src COMPUTE STATISTICS
  
  生成sizeInBytes和rowCount。
  
  使用ANALYZE语句收集统计信息时，无法计算非HDFS数据源的表的文件大小。
- 生成表级别统计信息（不扫表）：
  ANALYZE TABLE src COMPUTE STATISTICS NOSCAN
  
  只生成sizeInBytes，如果原来已经生成过sizeInBytes和rowCount，而本次生成的sizeInBytes和原来的大小一样，则保留rowCount（若存在），否则清除rowCount。
- 生成列级别统计信息
   ANALYZE TABLE src COMPUTE STATISTICS FOR COLUMNS a, b, c
  
  生成列统计信息，为保证一致性，会同步更新表统计信息。目前不支持复杂数据类型（如Seq, Map等）和HiveStringType的统计信息生成。
- 显示统计信息
   DESC FORMATTED src
  
  在Statistics中会显示“xxx bytes, xxx rows”分别表示表级别的统计信息。也可以通过如下命令显示列统计信息：
  
  DESC FORMATTED src a
使用限制：当前统计信息收集不支持针对分区表的分区级别的统计信息。

在Spark客户端的“spark-defaults.conf”配置文件中进行表1设置。

表1 参数介绍
参数	描述	默认值
spark.sql.cbo.enabled	CBO总开关。 true表示打开， false表示关闭。要使用该功能，需确保相关表和列的统计信息已经生成。	false
spark.sql.cbo.joinReorder.enabled	使用CBO来自动调整连续的inner join的顺序。 true：表示打开 false：表示关闭要使用该功能，需确保相关表和列的统计信息已经生成，且CBO总开关打开。	false
spark.sql.cbo.joinReorder.dp.threshold	使用CBO来自动调整连续inner join的表的个数阈值。如果超出该阈值，则不会调整join顺序。	12

父主题： Spark SQL性能调优

上一篇：Datasource表优化

下一篇：多级嵌套子查询以及混合Join的SQL调优

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问