如何设计一个规范的数据仓库

GaussDB(DWS)是一款具备分析及混合负载能力的分布式数据库，支持x86和Kunpeng硬件架构，支持行存储与列存储，提供GB~PB级数据分析能力、多模分析和实时处理能力，用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景，广泛应用于汽车、制造、零售、物流、互联网、金融、政府、电信等行业分析决策系统

普惠上云 2核2G2M云服务器

38元/年

云服务器秒杀 X实例-4核8G5M

338元/年

Flexus L实例 2核2G3M云服务器

68元/年

网站搭建买3年送2年

1元/天

免费体验中心

90+款云产品，最长可无限期免费试用

个人用户企业用户

免费

Flexus应用服务器L实例

即开即用，轻松运维，简单上云

新用户专享限购1台

¥0.00

云数据库免费试用

金融核心交易系统、政企OA办公等场景适用

注册申请

¥0.00

域名注册服务Domains

.com .cn多款热门域名首注1元起

新用户专享限购1个

￥1.00

华为云企业邮箱免费试用

即开即用，不限账号数

无限邮箱容量 4GB超大附件

¥0.00

免费试用

会打字就会建站

3300+模板，30000+企业选择

买2年送1年

¥368.00

跨境电商建站

10分钟快速建站，低成本开启跨境生意

试用14天跨境电商

￥0.00

/次

好会计，免费试用

全场景智能报销

免费体验15天

¥0.00

元/年

零代码构建平台

创建nocosys平台客户账号

智能协作企业办公

¥0.00

元/次

如何设计一个规范的数据仓库更多内容

规范设计

规范设计配置中心流程设计主题设计码表管理数据标准关系建模业务指标技术指标维度建模父主题：实施步骤

来自：帮助中心

查看更多 →
设计规范

。用户新建立的表空间必须采用本地管理和自动段空间管理。没有必要频繁的整理表空间中的碎片，除非碎片率达到了80%以上。如果表空间因频繁的DDL操作出现碎片，建议设置表空间的UNIFORM SIZE为合适的数值（例如1MB），来减少碎片的产生。索引设计原则表的主键、外键必须有索引；

来自：帮助中心

查看更多 →
设计规范

段上查询会返回较大的结果集。尽量避免返回较大的结果集。对集合的写操作同时会操作集合上的索引，从而触发更多的IO操作，集合上的索引数量不要超过32。不要创建不会被使用到的索引，因为DDS会加载索引到内存，无用索引加载到内存会浪费内存空间因业务逻辑变化而产生的无用索引也要及时清理。

来自：帮助中心

查看更多 →
设计规范

段上查询会返回较大的结果集。尽量避免返回较大的结果集。对集合的写操作同时会操作集合上的索引，从而触发更多的IO操作，集合上的索引数量不要超过32。不要创建不会被使用到的索引，因为DDS会加载索引到内存，无用索引加载到内存会浪费内存空间因业务逻辑变化而产生的无用索引也要及时清理。

来自：帮助中心

查看更多 →
权限设计规范

权限设计规范业务使用前必须由root用户为业务创建DATABASE、SCHEMA和USER，然后再赋予相关用户对应对象的权限。如果该用户不是该schema的owner，要访问schema下的对象，需要同时给用户赋予schema的usage权限和对象的相应权限。 DATABASE、SCHEMA和USER名使用小写。

来自：帮助中心

查看更多 →
索引设计规范

索引列为表的一列或多列计算而来的一个函数或者标量表达式限制使用对于HASH分布表，主键和唯一索引必须包含分布键。当设计组合索引时，优化器会通过计算代价来选择合适的执行计划。例如：在组合索引(a,b,c)下，当查询时如果只使用过滤条件b，优化器经过计算索引成本较低时，会选择索引。

来自：帮助中心

查看更多 →
设计规范设置

选择无需检查接口，单击“确定”，完成添加。快捷搜索可输入关键字快捷查找已存在的设计规范。设计规范定义更新单击“管理”，可以修改设计规范中启用的设计规则。单击“编辑”，可以修改设计规范的名称和描述。设计规范删除单击“删除”，可以删除设计规范。父主题：项目设置

来自：帮助中心

查看更多 →
索引设计规范

上分别建立唯一索引。即使在应用层做了完善的校验控制，只要没有唯一索引，根据墨菲定律，必然有脏数据产生。同时需要考虑建立的唯一索引对查询是否真正有帮助，没有帮助的索引可以考虑删除；需要考虑多建立的索引对插入性能的影响，根据唯一性相关的数据正确性需求，以及性能需求来权衡是不是需要多建立唯一性索引。

来自：帮助中心

查看更多 →
表设计规范

，减少DN间数据的流动代价。尽量避免数据shuffle。shuffle，是指在物理上，数据从一个节点，传输到另一个节点。shuffle占用了大量宝贵的网络资源，减小不必要的数据shuffle，可以减少网络压力，使数据的处理本地化，提高集群的性能和可支持的并发度。通过对关联条件和

来自：帮助中心

查看更多 →
基本设计规范

该节点的其他请求，导致业务成功率下降。诸如此类的还有热门商品促销，网红直播等场景，这些典型的读多写少的场景也会产生热点问题。如何处理大key和热key问题请参见如何检测和解决大key与热key问题。另外，对GeminiDB Cassandra数据库的读能力有更高要求的，读多写

来自：帮助中心

查看更多 →
ClickHouse设计开发规范

ClickHouse设计开发规范 ClickHouse设计规范概述 ClickHouse集群规划 ClickHouse数据库设计 ClickHouse数据库开发 ClickHouse数据库调优 ClickHouse数据库运维

来自：帮助中心

查看更多 →
库表设计规范

库表设计规范所有创建的MySQL表必须为InnoDB引擎，适配MySQL的其它引擎不支持事务。小数类型建议使用DECIMAL，禁止使用FLOAT和DOUBLE。 FLOAT和DOUBLE在存储的时候，存在精度损失的问题，很可能在值比较的时候得到的结果有误。如果存储的数据范围超

来自：帮助中心

查看更多 →
字段设计规范

如果对存储在字符类型字段中的数据进行数值计算，或者与数值进行比较操作（如置于过滤条件中），会带来不必要的数据类型转换的开销，同时该字段上的索引可能失效，影响查询性能。字符类型字段不应存储时间或日期类数据。如果对存储在字符类型字段中的数据与日期类数据进行计算或比较操作（如置于过滤

来自：帮助中心

查看更多 →
Hudi表模型设计规范

SparkSQL天然与Hive集成，无需考虑元数据问题。该条建议针对的是通过Spark Datasource API或者Flin写Hudi表的场景，通过这两种方式写Hudi时需要增加向Hive同步元数据的配置项；该配置的目的是将Hudi表的元数据统一托管到Hive元数据服务中，为后续的跨引擎操作数据以及数据管理提供便利。

来自：帮助中心

查看更多 →
Spark DAG设计规范说明

（车牌号1，车牌号3），（通过的第1个收费站，通过的第2个收费站）根据通过相同收费站的两辆车的车牌号聚合数据，如下：（车牌号1，车牌号2），[（通过的第1个收费站，通过的第5个收费站），（通过的第2个收费站，通过的第6个收费站），（通过的第1个收费站，通过的第7个收费站），（通过的第3个收费站，通过的第8个收费站）]

来自：帮助中心

查看更多 →
数据库设计规范

数据库设计规范基本规范部署规范数据库对象命名规范数据库设计规范权限设计规范表设计规范字段设计规范索引设计规范函数/存储过程设计规范父主题：使用规范建议

来自：帮助中心

查看更多 →
阅读指引

S)的分布式处理架构，输出更高效的业务SQL代码。对业务的执行效率不满意，期望通过调优加快业务执行的情况下，可以参考优化查询性能进行调优。性能调优是一项复杂的工程，有些时候无法系统性地说明和解释，而是依赖于DBA的经验判断。尽管如此，优化查询性能一节还是期望能尽量系统性的对性能

来自：帮助中心

查看更多 →
阅读指引

S)的分布式处理架构，输出更高效的业务SQL代码。对业务的执行效率不满意，期望通过调优加快业务执行的情况下，可以参考优化查询性能进行调优。性能调优是一项复杂的工程，有些时候无法系统性地说明和解释，而是依赖于DBA的经验判断。尽管如此，优化查询性能章节还是期望能尽量系统性的对性能

来自：帮助中心

查看更多 →
Hudi表索引设计规范

基于简化使用的角度，针对大数据量的表，可以通过采用Bucket索引来避免状态后端的复杂调优。如果Bucket索引+分区表的模式无法平衡Bueckt桶过大的问题，还是可以继续采用Flink状态索引，按照规范去优化对应的配置参数即可。建议基于Flink的流式写入的表，在数据量超

来自：帮助中心

查看更多 →
ClickHouse设计规范概述

ClickHouse设计规范概述内容介绍本文主要描述ClickHouse数据管理全生命周期过程中，数据库规划、建模设计、开发、调优、运维的规则建议和指导。通过这些约束和建议，指导开发者在ClickHouse数据库开发使用过程中能够最大化发挥数据库的优势，保障ClickHou

来自：帮助中心

查看更多 →
Hudi表分区设计规范

有一定时间范围规律的，比如：近一个月的数据更新占比最大，可以按照月份创建分区；近一天内的数据更新占比大，可以按照天进行分区。采用Bucket索引，写入是通过主键Hash打散的，数据会均匀的写入到分区下每个桶。因为各个分区的数据量是会有波动的，分区下桶的个数设计一般会按照最大分区

来自：帮助中心

查看更多 →