中软国际数据治理专业服务解决方案实践

中软国际数据治理专业服务解决方案实践

    carbondata数据 更多内容
  • 创建高查询性能的CarbonData表

    创建高查询性能的CarbonData表 操作场景 本章节根据超过50个测试用例总结得出建议,帮助用户创建拥有更高查询性能的CarbonData表。 表1 CarbonData表中的列 Column name Data type Cardinality Attribution msname

    来自:帮助中心

    查看更多 →

  • CREATE TABLE As SELECT

    AS 使用CarbonData数据格式存储数据。 TBLPROPERTIES CarbonData table属性列表。详细信息,见注意事项。 注意事项 NA 示例 CREATE TABLE ctas_select_parquet STORED AS carbondata as select

    来自:帮助中心

    查看更多 →

  • CarbonData表操作并发语法说明

    CarbonData表操作并发语法说明 DDL和DML中的操作,执行前,需要获取对应的锁,各操作需要获取锁的情况见表1 操作获取锁一览表,√表示需要获取该锁,一个操作仅在获取到所有需要获取的锁后,才能继续执行。 任意两个操作是否可以并发执行,可以通过如下方法确定:表1两行代表两个

    来自:帮助中心

    查看更多 →

  • CarbonData Segment API语法说明

    CarbonData Segment API语法说明 本章节描述Segment的API以及使用方法,所有方法在org.apache.spark.util.CarbonSegmentUtil类中。 如下方法已废弃: /** * Returns the valid segments

    来自:帮助中心

    查看更多 →

  • CarbonData首查优化工具

    CarbonData首查优化工具 工具介绍 CarbonData 的首次查询较慢,对于实时性要求较高的节点可能会造成一定的时延。 本工具主要提供以下功能: 对查询时延要求较高的表进行首次查询预热。 工具使用 下载安装客户端,例如安装目录为“/opt/client”。进入 目录“/

    来自:帮助中心

    查看更多 →

  • TABLE RENAME

    RENAME参数描述 参数 描述 db_name 数据库名。如果未指定,则选择当前数据库。 table_name 现有表名。 new_table_name 现有表名的新表名。 注意事项 并行运行的查询(需要使用表名获取路径,以读取CarbonData存储文件)可能会在此操作期间失败。 不允许二级索引表重命名。

    来自:帮助中心

    查看更多 →

  • INSERT INTO CARBON TABLE

    Source表上的SELECT查询(支持CarbonData、Hive和Parquet表)。 注意事项 表必须已经存在。 用户应属于数据加载组以执行数据加载操作。默认情况下,数据加载组被命名为“ficommon”。 CarbonData表不支持Overwrite。 源表和目标表的数据类型应该相同,否则源表中的数据将被视为Bad

    来自:帮助中心

    查看更多 →

  • 使用Spark客户端创建CarbonData表

    Data。 创建CarbonData Table 连接到CarbonData之后,需要创建CarbonData table用于加载数据和执行查询操作。 加载数据CarbonData Table 创建CarbonData table之后,可以从 CS V文件加载数据到所创建的table中。

    来自:帮助中心

    查看更多 →

  • 使用Spark客户端创建CarbonData表

    Data。 创建CarbonData Table 连接到CarbonData之后,需要创建CarbonData table用于加载数据和执行查询操作。 加载数据CarbonData Table 创建CarbonData table之后,可以从CSV文件加载数据到所创建的table中。

    来自:帮助中心

    查看更多 →

  • SHOW SECONDARY INDEXES

    该命令用于在所提供的CarbonData表中显示所有的二级索引表。 命令格式 SHOW INDEXES ON db_name.table_name; 参数描述 表1 SHOW SECONDARY INDEXES参数 参数 描述 db_name 数据库的名称。数据库名称应由字母数字字符和下划线(_)特殊字符组成

    来自:帮助中心

    查看更多 →

  • CREATE SECONDARY INDEX

    index_name 索引表的名称。表名称应由字母数字字符和下划线(_)特殊字符组成。 db_name 数据库的名称。数据库名称应由字母数字字符和下划线(_)特殊字符组成。 table_name 数据库中的表名称。表名称应由字母数字字符和下划线(_)特殊字符组成。 col_name 表中的列

    来自:帮助中心

    查看更多 →

  • 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?

    为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor? 问题 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor? 回答 CarbonData块分布对于数据处理进行了如下优化: 优化数据处理并行度。 优化了读取块数据的并行性。 为

    来自:帮助中心

    查看更多 →

  • 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?

    为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor? 问题 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor? 回答 CarbonData块分布对于数据处理进行了如下优化: 优化数据处理并行度。 优化了读取块数据的并行性。 为

    来自:帮助中心

    查看更多 →

  • INSERT INTO CARBON TABLE

    Source表上的SELECT查询(支持CarbonData、Hive和Parquet表)。 注意事项 表必须已经存在。 用户应属于数据加载组以执行数据加载操作。默认情况下,数据加载组被命名为“ficommon”。 CarbonData表不支持Overwrite。 源表和目标表的数据类型应该相同,否则源表中的数据将被视为Bad

    来自:帮助中心

    查看更多 →

  • SHOW SECONDARY INDEXES

    该命令用于在所提供的CarbonData表中显示所有的二级索引表。 命令格式 SHOW INDEXES ON db_name.table_name; 参数描述 表1 SHOW SECONDARY INDEXES参数 参数 描述 db_name 数据库的名称。数据库名称应由字母数字字符和下划线(_)特殊字符组成

    来自:帮助中心

    查看更多 →

  • CREATE TABLE As SELECT

    AS 使用CarbonData数据格式存储数据。 TBLPROPERTIES CarbonData table属性列表。详细信息,见注意事项。 注意事项 NA 示例 CREATE TABLE ctas_select_parquet STORED AS carbondata as select

    来自:帮助中心

    查看更多 →

  • CarbonData表空间索引语法说明

    空间索引介绍 空间数据包括多维点、线、矩形、立方体、多边形和其他几何对象。空间数据对象占据空间的某一区域,称为空间范围,通过其位置和边界描述。空间数据可以是点数据,也可以是区域数据。 点数据:一个点具有一个空间范围,仅通过其位置描述。它不占用空间,没有相关的边界。点数据由二维空间中的点的集合组成。点可以存储为一对经纬度。

    来自:帮助中心

    查看更多 →

  • 如何在CarbonData中配置非安全内存?

    如何在CarbonData中配置非安全内存? 问题 如何在CarbonData中配置非安全内存? 回答 在Spark配置中,“spark.yarn.executor.memoryOverhead”参数的值应大于CarbonData配置参数“sort.inmemory.size.inmb”与“Netty

    来自:帮助中心

    查看更多 →

  • OBS上的数据准备

    1”,其原始数据如原始数据所示,都已经存储在OBS桶“mybucket”的“demo.db/product_info_orc/”目录中。 如果数据文件已经在OBS上了,请执行获取源数据的OBS路径并设置读取权限中的步骤。 本小节以导入ORC格式为例,CARBONDATA数据的导入方法与ORC格式相似。

    来自:帮助中心

    查看更多 →

  • TABLE RENAME

    RENAME参数描述 参数 描述 db_name 数据库名。若未指定,则选择当前数据库。 table_name 现有表名。 new_table_name 现有表名的新表名。 注意事项 并行运行的查询(需要使用表名获取路径,以读取CarbonData存储文件)可能会在此操作期间失败。 不允许二级索引表重命名。

    来自:帮助中心

    查看更多 →

  • 开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复

    2'); 需要退出当前session,重新连接后执行查询。该方式已尽可能恢复客户数据,一般现网情况下,如断电场景segment数据文件也会存在不可恢复情况。 场景二:当前批次的Carbondata数据文件和.segment文件完整,可恢复。 使用TableStatusRecove

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了