为什么创建Hive表失败？

问题

为什么创建Hive表失败？

回答

当源表或子查询具有大数据量的Partition时，创建Hive表失败。执行查询需要很多的task，此时输出的文件数就会很多，从而导致driver OOM。

可以在创建Hive表的语句中增加distribute by子句来解决这个问题，其中distribute by的字段要选取合适的cardinality（即distinct值的个数）。

distribute by子句限制了Hive表的Partition数量。增加distribute by 子句后，最终的输出文件数取决于指定列的cardinality和“spark.sql.shuffle.partitions”参数值。但如果distribute by的字段的cardinality值很小，例如，“spark.sql.shuffle.partitions”参数值为200，但distribute by字段的cardinality只有100，则输出的200个文件中，只有其中100个文件有数据，剩下的100个文件为空文件。也就是说，如果选取的字段的cardinality过低，如1，则会造成严重的数据倾斜，从而严重影响查询性能。

因此，建议选取的distribute by字段的cardinality个数要大于“spark.sql.shuffle.partitions”参数，可大于2~3倍。

示例：

create table hivetable1 as select * from sourcetable1 distribute by col_age;

父主题： CarbonData FAQ

上一篇：为什么在off heap时数据加载失败？

下一篇：为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权？

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消