Spark SQL ROLLUP和CUBE使用的注意事项

更新时间：2022-09-30 GMT+08:00

问题

假设有表src(d1, d2, m)，其数据如下：

1 a 1
1 b 1
2 b 2

对于语句select d1, sum(d1) from src group by d1, d2 with rollup其结果如下：

对于以上结果的第一条为什么是(NULL,0)而不是(NULL,4)。

回答

在进行rollup和cube操作时，用户通常是基于维度进行分析，需要的是度量的结果，因此不会对维度进行聚合操作。

例如当前有表src(d1, d2, m)，那么语句1“select d1, sum(m) from src group by d1, d2 with rollup”就是对维度d1和d2进行上卷操作计算度量m的结果，因此有实际业务意义，而其结果也跟预期是一致的。但语句2“select d1, sum(d1) from src group by d1, d2 with rollup”则从业务上无法解释。当前对于语句2所有聚合（sum/avg/max/min）结果均为0。

说明：

只有在rollup和cube操作中对出现在group by中的字段进行聚合结果才是0，非rollup和cube操作其结果跟预期一致。

父主题： SQL和DataFrame

上一篇：SQL和DataFrame

下一篇：Spark SQL在不同DB都可以显示临时表

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

Spark SQL ROLLUP和CUBE使用的注意事项

问题

回答

意见反馈

文档内容是否对您有帮助？

文档反馈