CarbonData主要规格
CarbonData主要规格
实体 |
测试值 |
测试环境 |
---|---|---|
表数 |
10000 |
3个节点,每个executor 4个CPU核,20GB。Driver内存5GB,3个Executor。 总列数:107 String:75 Int:13 BigInt:7 Timestamp:6 Double:6 |
表的列数 |
2000 |
3个节点,每个executor4个CPU核,20GB。Driver内存5GB,3个Executor。 |
原始CSV文件大小的最大值 |
200GB |
17个cluster节点,每个executor 150GB,25个CPU核。Driver内存10 GB,17个Executor。 |
每个文件夹的CSV文件数 |
100个文件夹,每个文件夹10个文件,每个文件大小50MB。 |
3个节点,每个executor4个CPU核,20GB。Driver内存5GB,3个Executor。 |
加载文件夹数 |
10000 |
3个节点,每个executor4个CPU核,20GB。Driver内存5GB,3个Executor。 |
数据加载所需的内存取决于以下因素:
- 列数
- 列值大小
- 并发(使用“carbon.number.of.cores.while.loading”进行配置)
- 在内存中排序的大小(使用“carbon.sort.size”进行配置)
- 中间缓存(使用“carbon.graph.rowset.size”进行配置)
加载包含1000万条记录和300列的8 GB CSV文件的数据,每行大小约为0.8KB的8GB CSV文件的数据,需要约为10GB的executor执行内存,也就是说,“carbon.sort.size” 配置为“100000”,所有其他前面的配置保留默认值。
二级索引表规格
实体 |
测试值 |
---|---|
二级索引表数量 |
10 |
二级索引表中的组合列的列数 |
5 |
二级索引表中的列名长度(单位:字符) |
120 |
二级索引表名长度(单位:字符) |
120 |
表中所有二级索引表的表名+列名的累积长度*(单位:字符) |
3800** |
- * Hive允许的上限值或可用资源的上限值。
- ** 二级索引表使用hive注册,并以json格式的值存储在HiveSERDEPROPERTIES中。由hive支持的SERDEPROPERTIES的最大字符数为4000个字符,无法更改。