创建CarbonData Table的建议

操作场景

本章节根据超过50个测试用例总结得出建议，帮助用户创建拥有更高查询性能的CarbonData表。

表1 CarbonData表中的列
Column name	Data type	Cardinality	Attribution
msisdn	String	3千万	dimension
BEGIN_TIME	bigint	1万	dimension
host	String	1百万	dimension
dime_1	String	1千	dimension
dime_2	String	500	dimension
dime_3	String	800	dimension
counter_1	numeric(20,0)	NA	measure
...	...	NA	measure
counter_100	numeric(20,0)	NA	measure

操作步骤

如果待创建的表有一个常用于过滤的列，例如80%以上的场景使用此列过滤。
针对此类场景，调优方法如下：

将常用于过滤的列放在sort_columns第一列。

例如，msisdn作为过滤条件在查询中使用的最多，则将其放在第一列。创建表的命令如下，其中采用msisdn作为过滤条件的查询性能将会很好。
```
create table carbondata_table(
    msisdn String,
    ...
    )STORED AS carbondata TBLPROPERTIES ('SORT_COLUMS'='msisdn');
```
如果待创建的表有多个常用于过滤的列。
针对此类场景，调优方法如下：

为常用的过滤列创建索引。

例如，如果msisdn，host和dime_1是过滤经常使用的列，根据cardinality，sort_columns列的顺序是dime_1-> host-> msisdn…。创建表命令如下，以下命令可提高dime_1，host和msisdn上的过滤性能。
```
create table carbondata_table(
    dime_1 String,
    host String,
    msisdn String,
    dime_2 String,
    dime_3 String,
    ...
    )STORED AS carbondata 
TBLPROPERTIES ('SORT_COLUMS'='dime_1,host,msisdn');
```

如果每个用于过滤的列的频率相当。

针对此类场景，调优方法如下：

sort_columns按照cardinality从低到高的顺序排列。

创建表的命令如下：

create table carbondata_table(
    Dime_1 String,
    BEGIN_TIME bigint,
    HOST String,
    MSISDN String,
    ...
    )STORED AS carbondata
TBLPROPERTIES ('SORT_COLUMS'='dime_2,dime_3,dime_1, BEGIN_TIME,host,msisdn');

按照维度的cardinality从低到高创建表后，再为高Cardinality列创建SECONDARY INDEX。创建索引的语句如下：

create index carbondata_table_index_msidn on tablecarbondata_table (
MSISDN String) as 'carbondata' PROPERTIES ('table_blocksize'='128');
create index carbondata_table_index_host on tablecarbondata_table (
host String) as 'carbondata' PROPERTIES ('table_blocksize'='128');

对于不需要高精度的度量，无需使用numeric (20,0)数据类型，建议使用double数据类型来替换numeric (20,0)数据类型，以提高查询性能。
在一个测试用例中，使用double来替换numeric (20, 0)，查询时间从15秒降低到3秒，查询速度提高了5倍。创建表命令如下：
```
create table carbondata_table(
    Dime_1 String,
    BEGIN_TIME bigint,
    HOST String,
    MSISDN String,
    counter_1 double,
    counter_2 double,
    ...
    counter_100 double,
    )STORED AS carbondata
;
```
如果列值总是递增的，如start_time。
例如，每天将数据加载到CarbonData，start_time是每次加载的增量。对于这种情况，建议将start_time列放在sort_columns的最后，因为总是递增的值可以始终使用最小/最大索引。创建表命令如下：
```
create table carbondata_table(
    Dime_1 String,
    HOST String,
    MSISDN String,
    counter_1 double,
    counter_2 double,
    BEGIN_TIME bigint,
    ...
    counter_100 double,
    )STORED AS carbondata 
    TBLPROPERTIES ( 'SORT_COLUMS'='dime_2,dime_3,dime_1..BEGIN_TIME');
```

父主题： CarbonData性能调优

上一篇：调优指导

下一篇：性能调优的相关配置

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消