更新时间:2024-08-21 GMT+08:00

GaussDB(DWS)入门实践

当用户完成集群创建后,可以根据自身的业务需求使用GaussDB(DWS)提供的一系列常用实践。

表1 常用最佳实践

实践

描述

数据导入导出

从OBS导入数据到集群

本教程旨在通过演示将样例数据上传OBS,及将OBS的数据导入进GaussDB(DWS)上的目标表中,让您快速掌握如何从OBS导入数据到GaussDB(DWS)集群的完整过程。

GaussDB(DWS)支持通过外表将OBS上TXT、CSV、ORC、PARQUET、CARBONDATA以及JSON格式的数据导入到集群进行查询。

使用GDS从远端服务器导入数据

本教程旨在演示使用GDS(General Data Service)工具将远端服务器上的数据导入GaussDB(DWS)中的办法,帮助您学习如何通过GDS进行数据导入的方法。

GaussDB(DWS)支持通过GDS外表将TXT、CSV和FIXED格式的数据导入到集群进行查询。

导入远端DWS数据源

大数据融合分析场景下,支持同一区域内的多套GaussDB(DWS)集群之间的数据互通互访,本实践将演示通过Foreign Table方式从远端DWS导入数据到本端DWS。

本实践演示过程为:以gsql作为数据库客户端,gsql安装在ECS,通过gsql连接DWS,再通过外表方式导入远端DWS的数据。

导出ORC数据到MRS

GaussDB(DWS)数据库支持通过HDFS外表导出ORC格式数据至MRS,通过外表设置的导出模式、导出数据格式等信息来指定导出的数据文件,利用多DN并行的方式,将数据从GaussDB(DWS)数据库导出到外部,存放在HDFS文件系统上,从而提高整体导出性能。

数据迁移

Oracle迁移到GaussDB(DWS)实践

本教程演示将Oracle业务相关的表数据迁移到GaussDB(DWS)的数据库的基本过程。

MySQL表数据实时同步到GaussDB(DWS)实践

本实践演示通过华为云数据复制服务DRS完成MySQL数据实时同步到GaussDB(DWS)的基本过程。

通过DLI Flink作业将Kafka数据实时写入DWS

本实践演示通过数据湖探索服务DLI Flink作业将分布式消息服务Kafka的消费数据实时同步至DWS数据仓库,实现Kafka实时入库到DWS的过程。

本实践预计时长90分钟,实践用到的云服务包括虚拟私有云VPC及子网、弹性负载均衡ELB、弹性云服务器ECS、对象存储服务OBS、分布式消息服务Kafka、数据湖探索DLI和数据仓库服务DWS

调优表

调优表实践

在本实践中,您将学习如何优化表的设计。您首先不指定存储方式,分布键、分布方式和压缩方式创建表,然后为这些表加载测试数据并测试系统性能。接下来,您将应用优秀实践以使用新的存储方式、分布键、分布方式和压缩方式重新创建这些表,并再次为这些表加载测试数据和测试系统性能,以便比较不同的设计对表的加载性能、存储空间和查询性能的影响。

估计时间:60 分钟。

高级特性

冷热数据管理优秀实践

海量大数据场景下,随着业务和数据量的不断增长,数据存储与消耗的资源也日益增长。根据业务系统中用户对不同时期数据的不同使用需求,对膨胀的数据进行“冷热”分级管理,不仅可以提高数据分析性能还能降低业务成本。针对数据使用的一些场景,可以将数据按照时间分为:热数据、冷数据。

分区自动管理优秀实践

对于分区列为时间的分区表,分区自动管理功能可以自动创建新分区和删除过期分区,降低分区表的维护成本,改善查询性能。为了便于查询和维护数据,用户通常使用分区列为时间的分区表来存储时间相关的数据,例如电商的订单信息、 物联网采集的实时数据。这些时间相关的数据导入分区表时,需要保证分区表要有对应时间的分区,由于普通的分区表不会自动创建新的分区和删除过期的分区,所以维护人员需要定期创建新分区和删除过期分区,提高了运维成本。

​为解决上述问题,GaussDB(DWS) 引入了分区自动管理特性。可通过设置表级参数period、ttl开启分区自动管理功能,使分区表可以自动创建新分区和删除过期分区,降低分区表的维护成本,改善查询性能。

数据库管理

资源管理优秀实践

本实践将演示GaussDB(DWS)的资源管理功能,帮助企业客户解决数据分析过程中,多用户查询作业遇到的性能瓶颈,最终实现多用户执行SQL作业互不影响,节省资源消耗。

SQL查询优秀实践

根据数据库的SQL执行机制以及大量的实践总结发现:通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。

数据倾斜查询优秀实践

本实践包含以下存储倾斜案例:

  • 导入过程存储倾斜即时检测
  • 快速定位查询存储倾斜的表

用户管理优秀实践

GaussDB(DWS)集群中,常用的用户分别是系统管理员和普通用户。本实践简述了系统管理员和普通用户的权限,如何创建以及如何查询用户相关信息。

查看表和数据库的信息

本实践演示了基本数据库查询案例:

  • 查询表信息
  • 查询表大小
  • 查询数据库
  • 查询数据库大小

模拟数据分析

交通卡口通行车辆分析

本实践将演示交通卡口车辆通行分析,将加载8.9亿条交通卡口车辆通行模拟数据到数据仓库单个数据库表中,并进行车辆精确查询和车辆模糊查询,展示GaussDB(DWS) 对于历史详单数据的高性能查询能力。

供应链需求分析(TPC-H数据集)

本实践将演示从OBS加载样例数据集到GaussDB(DWS) 集群中并查询数据的流程,从而向您展示GaussDB(DWS) 在数据分析场景中的多表分析与主题分析。

零售业百货公司经营状况分析

本实践将演示以下场景:从OBS加载各个零售商场每日经营的业务数据到数据仓库对应的表中,然后对商铺营业额、客流信息、月度销售排行、月度客流转化率、月度租售比、销售坪效等KPI信息进行汇总和查询。本示例旨在展示在零售业场景中GaussDB(DWS) 数据仓库的多维度查询分析的能力。

数据安全

实现数据列的加解密

数据加密作为有效防止未授权访问和防护数据泄露的技术,在各种信息系统中广泛使用。作为信息系统的核心,GaussDB(DWS)数仓也提供数据加密功能,包括透明加密和使用SQL函数加密。本章节主要讨论SQL函数加密。