更新时间:2022-12-14 GMT+08:00

CarbonData主要规格

CarbonData主要规格

表1 CarbonData主要规格

实体

测试值

测试环境

表数

10000

3个节点,每个executor 4个CPU核,20GB。Drive内存5GB,3个Executor。

总列数:107

String:75

Int:13

BigInt:7

Timestamp:6

Double:6

表的列数

2000

3个节点,每个executor4个CPU核,20GB。Drive内存5GB,3个Executor。

原始CSV文件大小的最大值

200GB

17个cluster节点,每个executor 150GB,25个CPU核。Driver内存10 GB,17个Executor。

每个文件夹的CSV文件数

100个文件夹,每个文件夹10个文件,每个文件大小50MB。

3个节点,每个executor4个CPU核,20GB。Drive内存5GB,3个Executor。

加载文件夹数

10000

3个节点,每个executor4个CPU核,20GB。Drive内存5GB,3个Executor。

数据加载所需的内存取决于以下因素:

  • 列数
  • 列值大小
  • 并发(使用“carbon.number.of.cores.while.loading”进行配置)
  • 在内存中排序的大小(使用“carbon.sort.size”进行配置)
  • 中间缓存(使用“carbon.graph.rowset.size”进行配置)

加载包含1000万条记录和300列的8 GB CSV文件的数据,每行大小约为0.8KB的8GB CSV文件的数据,需要约为10GB的executor执行内存,也就是说,“carbon.sort.size” 配置为“100000”,所有其他前面的配置保留默认值。

二级索引表规格

表2 二级索引表规格

实体

测试值

二级索引表数量

10

二级索引表中的组合列的列数

5

二级索引表中的列名长度(单位:字符)

120

二级索引表名长度(单位:字符)

120

表中所有二级索引表的表名+列名的累积长度*(单位:字符)

3800**

  • * Hive允许的上限值或可用资源的上限值。
  • ** 二级索引表使用hive注册,并以json格式的值存储在HiveSERDEPROPERTIES中。由hive支持的SERDEPROPERTIES的最大字符数为4000个字符,无法更改。