数据仓库建表规范_Doris建表规范-华为云

GaussDB(DWS)是一款具备分析及混合负载能力的分布式数据库，支持x86和Kunpeng硬件架构，支持行存储与列存储，提供GB~PB级数据分析能力、多模分析和实时处理能力，用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景，广泛应用于汽车、制造、零售、物流、互联网、金融、政府、电信等行业分析决策系统

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

免费体验中心

90+款云产品，最长可无限期免费试用

个人用户企业用户

免费

Flexus应用服务器L实例

即开即用，轻松运维，简单上云

新用户专享限购1台

¥0.00

云数据库免费试用

金融核心交易系统、政企OA办公等场景适用

注册申请

¥0.00

域名注册服务Domains

.com .cn多款热门域名

新用户专享限购1个

立即前往

华为云企业邮箱免费试用

即开即用，不限账号数

无限邮箱容量 4GB超大附件

¥0.00

免费试用

会打字就会建站

3300+模板，30000+企业选择

立即购买

跨境电商建站

10分钟快速建站，低成本开启跨境生意

试用14天跨境电商

￥0.00

/次

好会计，免费试用

全场景智能报销

免费体验15天

¥0.00

元/年

零代码构建平台

创建nocosys平台客户账号

智能协作企业办公

¥0.00

元/次

数据仓库建表规范更多内容

Doris建表规范

文件。创建表时的副本数必须至少为2，默认是3，禁止使用单副本。没有聚合函数列的表不应该被创建为AGGREGATE表。创建主键表时需保持主键的列唯一，不建议将所有列都设置为主键列，且主键表需设置value列。主键表不建议用于数据去重场景。 Doris建表建议单表物化视图不能

来自：帮助中心

查看更多 →
SparkSQL建表参数规范

SparkSQL建表参数规范规则建表必须指定primaryKey和preCombineField。 Hudi表提供了数据更新的能力和幂等写入的能力，该能力要求数据记录必须设置主键用来识别重复数据和更新操作。不指定主键会导致表丢失数据更新能力，不指定preCombineField会导致主键重复。

来自：帮助中心

查看更多 →
自动建表原理介绍

e整库迁移到DWS， CDM 在DWS上自动建表，会将Oracle的NUMBER(3,0)字段映射到DWS的SMALLINT。图1 自动建表的字段映射 CDM在Hive中自动建表时，Hive表与源表的字段类型映射关系参见表1、表2、表3及表4。例如使用CDM将MySQL整库迁移到H

来自：帮助中心

查看更多 →
自动建表原理介绍

e整库迁移到DWS，CDM在DWS上自动建表，会将Oracle的NUMBER(3,0)字段映射到DWS的SMALLINT。图1 自动建表的字段映射 CDM在Hive中自动建表时，Hive表与源表的字段类型映射关系参见表1、表2、表3及表4。例如使用CDM将MySQL整库迁移到H

来自：帮助中心

查看更多 →
数据仓库

数据仓库华为云数据仓库高级工程师培训父主题：培训服务

来自：帮助中心

查看更多 →
数据仓库

数据仓库表1 数据仓库权限权限对应API接口授权项（Action） IAM项目 (Project) 企业项目 (Enterprise Project) 获取数据仓库列表 GET /v1.0/{project_id}/common/warehouses octopus:dataWarehouse:list

来自：帮助中心

查看更多 →
数据仓库

数据仓库获取数据仓库列表信息获取数据仓库的数据列表父主题： API

来自：帮助中心

查看更多 →
规范

规范云商店商家合作管理规范云商店商品安全审核标准3.0

来自：帮助中心

查看更多 →
Hudi表模型设计规范

流式计算采用MOR表。流式计算为低时延的实时计算，需要高性能的流式读写能力，在Hudi表中存在的MOR和COW两种模型中，MOR表的流式读写性能相对较好，因此在流式计算场景下采用MOR表模型。关于MOR表在读写性能的对比关系如下：对比维度 MOR表 COW表流式写高低流式读

来自：帮助中心

查看更多 →
获取数据仓库列表信息

获取数据仓库列表信息功能介绍获取数据仓库列表 URI GET /v1.0/{project_id}/common/warehouses 表1 路径参数参数是否必选参数类型描述 project_id 是 String 项目id，获取方法请参见获取项目ID 表2 Query参数

来自：帮助中心

查看更多 →
Hudi表分区设计规范

议使用。建议事实表采用日期分区表，维度表采用非分区或者大颗粒度的日期分区是否采用分区表要根据表的总数据量、增量和使用方式来决定。从表的使用属性看事实表和维度表具有的特点：事实表：数据总量大，增量大，数据读取多以日期做切分，读取一定时间段的数据。维度表：总量相对小，增量小

来自：帮助中心

查看更多 →
Hudi数据表Compaction规范

规则有数据持续写入的表，24小时内至少执行一次compaction。对于MOR表，不管是流式写入还是批量写入，需要保证每天至少完成1次Compaction操作。如果长时间不做compaction，Hudi表的log将会越来越大，这必将会出现以下问题： Hudi表读取很慢，且需要很大的资源。

来自：帮助中心

查看更多 →
Hudi数据表Clean规范

Hudi数据表Clean规范 Clean也是Hudi表的维护操作之一，该操作对于MOR表和COW表都需要执行。Clean操作的目的是为了清理旧版本文件（Hudi不再使用的数据文件），这不但可以节省Hudi表List过程的时间，也可以缓解存储压力。规则 Hudi表必须执行Clean。

来自：帮助中心

查看更多 →
TaurusDB库表设计规范

避免使用分区表，如有需要，可以使用多个独立的表代替。分区表的缺点： DDL操作需要锁定所有分区，导致所有分区上操作都被阻塞。当表数据量较大时，对分区表进行DDL或其他运维操作难度大风险高。分区表使用较少，存在未知风险。当单台服务器性能无法满足时，对分区表进行分拆的成本较高。

来自：帮助中心

查看更多 →
Hudi表索引设计规范

Hudi表索引设计规范规则禁止修改表索引类型。 Hudi表的索引会决定数据存储方式，随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下：布隆索引：Spark引擎独有索引，采用bloomfiter机制，将布隆索引内容写入到Parquet文件的footer中。

来自：帮助中心

查看更多 →
Spark on Hudi表数据维护规范

Spark on Hudi表数据维护规范禁止通过Alter命令修改表关键属性信息：type/primaryKey/preCombineField/hoodie.index.type 错误示例，执行如下语句修改表关键属性： alter table dsrTable set tbl

来自：帮助中心

查看更多 →
数据仓库规格

，规格详情请参见表5。存算分离本地盘规格，该规格存储容量固定，不能够进行磁盘扩容和规格变更，只能进行节点扩容，规格详情请参见表6。创建存算分离集群时规格仅显示后半部分（例如4U16G.4DPU），下列规格列表中前缀（dwsx3/dwsax3/dwsk3）代表存算分离对应的CPU架构。

来自：帮助中心

查看更多 →
数据仓库类型

备注1：存算分离表数据存储在OBS上，无需重分布，但是元数据和索引存储在本地，仍然需要进行重分布。存算分离表在重分布时，表只支持读，元数据的重分布时间一般比较短，但是，如果表上创建了索引，索引会影响重分布的性能，重分布完成时间与索引的数据量成正比关系，在此期间，表只支持读。存算

来自：帮助中心

查看更多 →
打包规范

打包规范软件包部署包镜像包 SQL包 IaC 3.0包 Terraform包 TF模板包

来自：帮助中心

查看更多 →
开发规范

开发规范防止出现panic后链代码容器异常该内容仅适用于Fabric架构版本的区块链实例的Go语言链代码开发。为避免出现panic异常时链代码容器异常重启，找不到日志，导致问题无法及时定位，可在Invoke函数入口处添加defer语句时，出现panic异常时返回错误给客户端。

来自：帮助中心

查看更多 →
开发规范

开发规范开发工具版本要求： IntelliJ IDEA：2018.3.5或以上版本。 Eclipse：3.6.0或以上版本。 Visual Studio：2019 version 16.8.4或以上版本。开发语言环境版本要求： Java：1.8.111或以上版本的Java Development

来自：帮助中心

查看更多 →