CarbonData主要规格
CarbonData主要规格
| 
        实体  | 
      
        测试值  | 
      
        测试环境  | 
     
|---|---|---|
| 
        表数  | 
      
        10000  | 
      
        3个节点,每个executor 4个CPU核,20GB。Driver内存5GB,3个Executor。 总列数:107 String:75 Int:13 BigInt:7 Timestamp:6 Double:6  | 
     
| 
        表的列数  | 
      
        2000  | 
      
        3个节点,每个executor4个CPU核,20GB。Driver内存5GB,3个Executor。  | 
     
| 
        原始CSV文件大小的最大值  | 
      
        200GB  | 
      
        17个cluster节点,每个executor 150GB,25个CPU核。Driver内存10 GB,17个Executor。  | 
     
| 
        每个文件夹的CSV文件数  | 
      
        100个文件夹,每个文件夹10个文件,每个文件大小50MB。  | 
      
        3个节点,每个executor4个CPU核,20GB。Driver内存5GB,3个Executor。  | 
     
| 
        加载文件夹数  | 
      
        10000  | 
      
        3个节点,每个executor4个CPU核,20GB。Driver内存5GB,3个Executor。  | 
     
数据加载所需的内存取决于以下因素:
- 列数
 - 列值大小
 - 并发(使用“carbon.number.of.cores.while.loading”进行配置)
 - 在内存中排序的大小(使用“carbon.sort.size”进行配置)
 - 中间缓存(使用“carbon.graph.rowset.size”进行配置)
 
加载包含1000万条记录和300列的8 GB CSV文件的数据,每行大小约为0.8KB的8GB CSV文件的数据,需要约为10GB的executor执行内存,也就是说,“carbon.sort.size” 配置为“100000”,所有其他前面的配置保留默认值。
二级索引表规格
| 
        实体  | 
      
        测试值  | 
     
|---|---|
| 
        二级索引表数量  | 
      
        10  | 
     
| 
        二级索引表中的组合列的列数  | 
      
        5  | 
     
| 
        二级索引表中的列名长度(单位:字符)  | 
      
        120  | 
     
| 
        二级索引表名长度(单位:字符)  | 
      
        120  | 
     
| 
        表中所有二级索引表的表名+列名的累积长度*(单位:字符)  | 
      
        3800**  | 
     
 
   - * Hive允许的上限值或可用资源的上限值。
 - ** 二级索引表使用hive注册,并以json格式的值存储在HiveSERDEPROPERTIES中。由hive支持的SERDEPROPERTIES的最大字符数为4000个字符,无法更改。