数据仓库设计拉链表的步骤_步骤4：业务设计-华为云

GaussDB(DWS)是一款具备分析及混合负载能力的分布式数据库，支持x86和Kunpeng硬件架构，支持行存储与列存储，提供GB~PB级数据分析能力、多模分析和实时处理能力，用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景，广泛应用于汽车、制造、零售、物流、互联网、金融、政府、电信等行业分析决策系统

普惠上云 2核2G2M云服务器

38元/年

云服务器秒杀 X实例-4核8G5M

338元/年

Flexus L实例 2核2G3M云服务器

68元/年

网站搭建买3年送2年

1元/天

免费体验中心

90+款云产品，最长可无限期免费试用

个人用户企业用户

免费

Flexus应用服务器L实例

即开即用，轻松运维，简单上云

新用户专享限购1台

¥0.00

云数据库免费试用

金融核心交易系统、政企OA办公等场景适用

注册申请

¥0.00

域名注册服务Domains

.com .cn多款热门域名首注1元起

新用户专享限购1个

￥1.00

华为云企业邮箱免费试用

即开即用，不限账号数

无限邮箱容量 4GB超大附件

¥0.00

免费试用

会打字就会建站

3300+模板，30000+企业选择

买2年送1年

¥368.00

跨境电商建站

10分钟快速建站，低成本开启跨境生意

试用14天跨境电商

￥0.00

/次

好会计，免费试用

全场景智能报销

免费体验15天

¥0.00

元/年

零代码构建平台

创建nocosys平台客户账号

智能协作企业办公

¥0.00

元/次

数据仓库设计拉链表的步骤更多内容

步骤4：业务设计

BO：抽象对象，不能实例化，没有对应的数据库表，需要和业务对象有个继承的操作。例如，业务对象A继承一个抽象对象B，则B中的字段都会被A继承过来。 Value Object：值对象，不能单独存在，需要和业务对象建立聚合的关系。本示例中，拖拽三个BO对象到设计区，选中对应的BO，修改对象名称为U

来自：帮助中心

查看更多 →
步骤1：流程设计

- 数据的迁移周期：天、小时、分钟还是实时迁移天 - 数据源与目的数据源之间的网络带宽 100MB - 数据源和集成工具之间的网络连通性描述本示例不涉及 - 数据库类迁移，调研表的个数，最大表的规模本示例不涉及，本示例需要从OBS文件迁移到数据库了解数据库迁移的作业规模，了解最大表的迁移时间是否可接受

来自：帮助中心

查看更多 →
表设计

表设计总体上讲，良好的表设计需要遵循以下原则：减少需要扫描的数据量。通过分区表的剪枝机制可以大幅减少数据的扫描量。尽量减少随机I/O。通过聚簇可以实现热数据的连续存储，将随机I/O转换为连续I/O，从而减少扫描的I/O代价。选择分区方案当表中的数据量很大时，应当对表进行分区，一般需要遵循以下原则：

来自：帮助中心

查看更多 →
表设计

表设计总体上讲，良好的表设计需要遵循以下原则：减少需要扫描的数据量。通过分区表的剪枝机制可以大幅减少数据的扫描量。尽量减少随机I/O。通过聚簇可以实现热数据的连续存储，将随机I/O转换为连续I/O，从而减少扫描的I/O代价。选择分区方案当表中的数据量很大时，应当对表进行分区，一般需要遵循以下原则：

来自：帮助中心

查看更多 →
表设计

联条件和分组条件的仔细设计，能够尽可能的减少不必要的数据shuffle。选择存储方案【建议】表的存储类型是表定义设计的第一步，客户业务类型是决定表的存储类型的主要因素，表存储类型的选择依据请参考表1。表1 表的存储类型及场景存储类型适用场景行存点查询(返回记录少，基于索引的简单查询)。

来自：帮助中心

查看更多 →
表设计

用了大量宝贵的网络资源，减小不必要的数据shuffle，可以减少网络压力，使数据的处理本地化，以提高集群的性能和可支持的并发度。通过对关联条件和分组条件的仔细设计，能够尽可能的减少不必要的数据shuffle。选择分布方案表的分布方式的选择如表1所示。表1 表的分布方式及使用场景

来自：帮助中心

查看更多 →
表设计

化，提高集群的性能和可支持的并发度。通过对关联条件和分组条件的仔细设计，能够尽可能的减少不必要的数据shuffle。选择存储方案【建议】表的存储类型是表定义设计的第一步，用户业务类型是决定表的存储类型的主要因素，表存储类型的选择依据请参考表1。表1 表的存储类型及场景存储模型

来自：帮助中心

查看更多 →
表设计

le占用了大量宝贵的网络资源，减小不必要的数据shuffle，可以减少网络压力，使数据的处理本地化，以提高集群的性能和可支持的并发度。通过对关联条件和分组条件的仔细设计，能够尽可能的减少不必要的数据shuffle。选择分布方案表的分布方式的选择如表2 表的分布方式及使用场景所示。

来自：帮助中心

查看更多 →
表设计

【建议】表的存储类型是表定义设计的第一步，客户业务类型是决定表的存储类型的主要因素，表存储类型的选择依据请参考表1。表1 表的存储类型及场景存储类型适用场景行存点查询（返回记录少，基于索引的简单查询）。增、删、改操作较多的场景。列存统计分析类查询（关联、分组操作较多的场景）。

来自：帮助中心

查看更多 →
表设计

化，提高集群的性能和可支持的并发度。通过对关联条件和分组条件的仔细设计，能够尽可能的减少不必要的数据shuffle。选择存储方案【建议】表的存储类型是表定义设计的第一步，用户业务类型是决定表的存储类型的主要因素，表存储类型的选择依据请参考表1。表1 表的存储类型及场景存储类型

来自：帮助中心

查看更多 →
账表设计

业务需要设置分析报表的分类，便于日后按分类查找报表。图3 账表分类在账表分类上新建报表，设置报表编码、名称等信息。图4 新建账表新建报表后报表是没有样式的，还需要针对新建的报表设计该报表的格式。设计格式之初，首先选择合适的数据模型，然后进行报表格式设计。图5 数据模型选择

来自：帮助中心

查看更多 →
表设计最佳实践

表设计最佳实践使用分区表选择数据类型父主题：最佳实践

来自：帮助中心

查看更多 →
表设计最佳实践

表设计最佳实践选择分布方式选择分布列使用分区表选择数据类型查看表所在节点父主题：最佳实践

来自：帮助中心

查看更多 →
表设计最佳实践

增强可用性：如果分区表的某个分区出现故障，表在其他分区的数据仍然可用。方便维护：如果分区表的某个分区出现故障，需要修复数据，只修复该分区即可。 GaussDB数据库支持的分区表为一级分区表和二级分区表，其中一级分区表包括范围分区表、间隔分区表、列表分区表、哈希分区表四种，二级分区表包括范围

来自：帮助中心

查看更多 →
表设计最佳实践

表设计最佳实践使用分区表分区表是把逻辑上的一张表根据某种方案分成几张物理块进行存储。这张逻辑上的表称之为分区表，物理块称之为分区。分区表是一张逻辑表，不存储数据，数据实际是存储在分区上的。分区表和普通表相比具有以下优点：改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索效率。

来自：帮助中心

查看更多 →
表设计规范

集群的性能和可支持的并发度。通过对关联条件和分组条件的仔细设计，能够尽可能的减少不必要的数据shuffle。由于数据库规格要求HASH分布表的主键必须包含其分布列，因此在选择分布列时，也可以考虑选择表的主键作为分布键。表1 常见的分布键及效果分布键值分布键分布均匀性用户

来自：帮助中心

查看更多 →
表设计最佳实践

表设计最佳实践选择存储模型选择分布方式选择分布列使用局部聚簇使用分区表选择数据类型查看表所在节点父主题：最佳实践

来自：帮助中心

查看更多 →
表设计最佳实践

表设计最佳实践选择存储模型使用局部聚簇使用分区表选择数据类型父主题：最佳实践

来自：帮助中心

查看更多 →
数据仓库

数据仓库华为云数据仓库高级工程师培训父主题：培训服务

来自：帮助中心

查看更多 →
获取数据仓库的数据列表

获取数据仓库的数据列表功能介绍获取数据仓库的数据列表 URI POST /v1.0/{project_id}/common/warehouses/{data_warehouse_id}/data 表1 路径参数参数是否必选参数类型描述 project_id 是 String

来自：帮助中心

查看更多 →
维度建模

数据应用系统的需求，再提炼数据集市的数据接口需求目标表设计：即数据集市结果表设计，根据数据应用的需求进行数据表设计数据源分析：主要分析数据仓库的数据如何满足集市的需要，即确定需要数据仓库的那些表数据，如果数据仓库没有，则需要数据仓库进行数据补充数据仓库表与目标表字段进行映射，确定加工规则

来自：帮助中心

查看更多 →