创建CarbonData表

操作场景

使用CarbonData前需先创建表，才可从表中加载数据和查询数据。

使用自定义列创建表

可通过指定各列及其数据类型来创建表。启用Kerberos认证的分析集群创建CarbonData表时，如果用户需要在默认数据库“default”以外的数据库创建新表，则需要在Hive角色管理中为用户绑定的角色添加指定数据库的“Create”权限。

命令示例：

CREATE TABLE IF NOT EXISTS productdb.productSalesTable (

productNumber Int,

productName String,

storeCity String,

storeProvince String,

revenue Int)

STORED BY 'org.apache.carbondata.format'

TBLPROPERTIES (

'table_blocksize'='128',

'DICTIONARY_EXCLUDE'='productName',

'DICTIONARY_INCLUDE'='productNumber');

上述命令所创建的表的详细信息如下：

表1 表信息定义
参数	描述
productSalesTable	待创建的表的名称。该表用于加载数据进行分析。表名由字母、数字、下划线组成。
productdb	数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。数据库名称由字母、数字、下划线组成。
productNumber productName storeCity storeProvince revenue	表中的列，代表执行分析所需的业务实体。列名（字段名）由字母、数字、下划线组成。说明： CarbonData暂不支持设置列是否允许为空、默认值以及主键。
table_blocksize	CarbonData表使用的数据文件的block大小，默认值为1024，取值范围为1～2048，单位为MB。如果“table_blocksize”值太小，数据加载时将生成过多的小数据文件，可能会影响HDFS的使用性能。如果“table_blocksize”值太大，数据查询时索引匹配的block数据量较大，导致读取并发度不高，从而降低查询性能。一般情况下，建议根据数据量级别来选择大小。例如：GB级别用256，TB级别用512，PB级别用1024。
DICTIONARY_EXCLUDE	设置指定列不生成字典，适用于数值复杂度高的列。系统默认为String类型的列做字典编码，但是如果字典值过多，会导致字典转换操作增加造成性能下降。一般情况下，列的数值复杂度高于5万，可以被认定为高复杂度，则需要排除掉字典编码，该参数为可选参数。说明：在非字典列中，只支持String和Timestamp数据类型。
DICTIONARY_INCLUDE	设置指定列生成字典，适用于数值复杂度低的列，可以提升字典列上的groupby性能，为可选参数。一般情况下，字典列的复杂度不应该高于5万。

父主题： 使用CarbonData（MRS 3.x之前版本）

上一篇：CarbonData表简介

下一篇：删除CarbonData表

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

创建CarbonData表

操作场景

使用自定义列创建表

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线