文档首页 > > 快速入门> 快速创建DWS集群并导入数据
None

快速创建DWS集群并导入数据

分享
更新时间: 2019/06/10 GMT+08:00
  • 华为云数据仓库服务(Data Warehouse Service,简称DWS)是一种即开即用、安全可靠的在线数据仓库服务,为用户提供海量数据的存储、挖掘和分析能力。

  • 数据仓库服务提供专业高效的服务管理控制平台,让用户自助完成数据仓库的管理与维护,系统可用性高。用户可以快速创建数据仓库服务集群并开展业务。

  • 本指南提供创建集群、连接集群并从OBS导入样例数据的操作指导,指导您快速上手数据仓库服务。

Step1 创建集群

步骤

① 登录华为云控制台

如果您还没有公有云帐户,请单击“免费注册”先注册一个账户,并完成实名认证,然后再登录。
② 在页面最上方,选择“服务列表 > EI企业智能 > 数据仓库服务”,进入数据仓库服务管理控制台。

③ 单击“创建数据仓库集群”。

说明

①您也可以访问以下地址登录DWS管理控制台:https://console.huaweicloud.com/dws

1

登录DWS管理控制台

申请虚拟私有云

2

创建集群

申请弹性云服务器

单击图片可查看原图

Step2 配置集群基本参数

步骤

① 在创建数据仓库集群页面,选择区域和可用区。

区域:选择在哪个区域创建集群。

可用区:可用区表示在公有云的一个数据中心地域下,电力、网络互相隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。
② 选择节点规格和节点数量。如图① 所示。“集群类型”仅公测用户可见。

③ 配置集群参数,如图②所示。其中:

  • 管理员用户:集群创建成功后,客户端连接集群数据库时将使用该管理员用户及其密码。
  • 数据库端口:指定一个端口,SQL客户端或应用程序将通过该端口连接集群中的数据库。在集群创建之后,无法更改。

说明

① 如果您的客户端机器位于防火墙之后,则您需要相应地开放“数据库端口”,这样才能从SQL客户端工具连接到集群并进行查询分析。

1

选择节点规格和节点数量

选择付费方式

2

配置集群参数

选择付费方式

单击图片可查看原图

Step3 配置网络参数和高级配置

步骤

① 配置网络参数。如图① 所示。

  • 虚拟私有云:虚拟私有云(VPC)为集群提供网络拓扑,实现多个不同集群互相隔离并控制访问,提高网络安全。可以选择已有的VPC,也可以单击查看虚拟私有云”登录VPC界面新建一个VPC,具体请参见《虚拟私有云用户指南》。

  • 子网:创建虚拟私有云时会默认创建一个子网,可以选择对应的子网名。

  • 安全组:可选择自动创建安全组”。自动创建的安全组名为“dws-<集群名称>-<数据库端口>”,其出方向允许所有访问,入方向只开放数据库端口以允许来自客户端或应用程序的访问。

  • 公网访问:本示例选择“现在购买”,为集群购买一个弹性IP作为集群的公网IP,以便在互联网环境使用客户端连接DWS数据库。

② 设置如下参数,如图② 所示:

企业项目:集群所属的企业项目,仅公测用户可见。如果没有项目,可以设置为“default”或登录企业管理服务新建一个项目。

高级配置:选择“默认配置”即可。单击“自定义”时可以看到有哪些高级配置项以及它们的默认值,可以自定义设置。

③单击“立即购买”,然后在规格确认页面,确认后,单击“提交”。

创建DWS集群需要15分钟左右,请耐心等待。返回集群管理页面,当集群状态为“可用”时表示创建成功。如图③所示。

1

配置网络参数

选择付费方式

2

高级配置

选择付费方式

3

查看集群状态

选择付费方式

单击图片可查看原图

Step4 下载客户端并连接集群

步骤

①DWS提供了基于Windows平台的Data Studio图形界面客户端,请先在客户端主机上安装Java 1.8.0_141或更高版本。

②在DWS控制台的“连接管理”页面,下载Data Studio图形界面客户端。

③解压下载的Data Studio软件包,进入解压目录后,双击Data Studio.exe启动客户端。

④在Data Studio主菜单中选择文件 新建连接”,并在弹出框中参照图②所示配置连接参数连接DWS数据库。

主机名”请填写集群的公网地址。在DWS管理控制台的集群管理页面中,单击集群名称,可查看公网地址,如图③所示。

使用客户端首次连接DWS集群时,请使用创建集群时设置的管理员用户、密码、数据库端口连接到默认数据库“postgres”。

⑤去勾选“SSL选项”,然后单击“确定”,在弹出对话框中单击“继续”。

在本示例中,我们将采用非SSL方式通过公网地址连接集群。

1

下载客户端

选择付费方式

2

连接集群

选择实例配置

3

获取集群公网地址

选择实例配置

单击图片可查看原图

Step5 创建导入数据的目标数据库和表

步骤

在Data Studio客户端中执行SQL语句,将模拟的8.9亿条交通卡口车辆通行样例数据导入DWS,并执行查询。展示DWS对于历史详单数据的高性能查询能力。

①在Data Studio的“SQL终端”窗口,执行以下语句创建数据库“traffic”。

create database traffic encoding 'utf8' template template0;

②右键单击数据库名“traffic”,单击菜单“打开连接”,再右键单击数据库名“traffic”并单击“打开新的终端”,如图②所示。

后面的步骤,请全部在该终端中执行。

③执行以下语句,创建用于存储卡口车辆信息的数据库表。

create schema traffic_data;
set current_schema= traffic_data;
drop table if exists GCJL;
CREATE TABLE GCJL
(
    kkbh VARCHAR(20), 
    hphm VARCHAR(20),
    gcsj DATE ,
    cplx VARCHAR(8),
    cllx VARCHAR(8),
    csys VARCHAR(8)
)
with (orientation = column, COMPRESSION=MIDDLE)
distribute by hash(hphm);

1

创建数据库

选择付费方式

2

连接数据库

选择实例配置

3

创建数据库表

选择付费方式

单击图片可查看原图

Step6 创建OBS外表

步骤

①替换创建外表命令中的以下参数,执行替换后的命令创建外表。外表用于识别和关联OBS上的样例数据。

<Access_Key_Id>和<Secret_Access_Key>:OBS访问密钥,在管理控制台右上角,鼠标移到用户名上单击“我的凭证”获取,请参考创建访问密钥(AK和SK)

<obs_bucket_name>:存储样例数据的OBS桶名。样例数据已预先存储在该OBS桶中,用户拥有该OBS桶的只读权限。集群所属的区域不同OBS桶名也不同。“华北-北京一”区域OBS桶名为“dws-demo”,其他区域的OBS桶名为“dws-demo-<Region>”,其中<Region>表示区域,区域信息请参见地区和终端节点。例如,Region为cn-south-1,<obs_bucket_name>即为“dws-demo-cn-south-1”。

创建外表命令如下:

create schema tpchobs;
set current_schema = 'tpchobs';
drop FOREIGN table if exists GCJL_OBS;
CREATE FOREIGN TABLE GCJL_OBS     (       like traffic_data.GCJL     )
SERVER gsmpp_server    

OPTIONS (
encoding 'utf8',
location 'obs://<obs_bucket_name>/traffic-data/gcxx',
format 'text',
delimiter ',',
access_key '<Access_Key_Id>',
secret_access_key '<Secret_Access_Key>',
chunksize '64',
IGNORE_EXTRA_DATA 'on'      );

1

创建OBS外表

选择付费方式

单击图片可查看原图

Step7 将外表数据插入到数据库表中

步骤

①执行以下语句,将数据从外表导入到数据库表中。

insert into traffic_data.GCJL select * from tpchobs.GCJL_OBS;

导入数据将耗费一些时间,请耐心等待。

1

导入数据

选择付费方式

单击图片可查看原图

Step8 查询并分析样例数据

步骤

①执行Analyze命令生成数据库普通表的统计信息。

统计结果存储在系统表PG_STATISTIC中。执行计划生成器会使用这些统计数据,以生成最有效的查询执行计划。

② 查询数据表中的数据量

执行如下语句,可以查看已加载的数据条数。

set current_schema= traffic_data;

Select count(*) from traffic_data.gcjl;

② 车辆模糊查询

执行如下语句,指定车牌号码和时间段查询车辆轨迹。DWS在应对模糊查询时秒级响应。
set current_schema= traffic_data;
select hphm, kkbh, gcsj
from traffic_data.gcjl
where hphm like '粤A23F%'
and kkbh in('508', '1125', '2120')
and gcsj between '2016-01-01' and '2016-01-07'
order by hphm,gcsj desc;

1

执行Analyze和查询数据

选择付费方式

2

车辆模糊查询

选择实例配置

单击图片可查看原图

Step9 清理资源

步骤

当完成本示例后,如果您不再需要使用本示例创建的资源,可以删除这些资源,以免资源浪费或占用您的配额。

①删除集群。在DWS管理控制台的“集群管理”页面进行删除。如图①所示。

删除时,在弹出对话框勾选“释放与集群绑定的弹性IP”,再单击“确定”

在删除集群时,自动创建的安全组如果未被其他资源所使用,此时也会随着集群一起被删除。

②登录虚拟私有云管理控制台,按顺序删除如下资源:

进入“虚拟私有云”页面,单击虚拟私有云名称,然后删除子网,如图② 。

进入“虚拟私有云”页面,在虚拟私有云“vpc-dws” 所在行,单击“删除”删除虚拟私有云。

说明

①在删除安全组、子网、虚拟私有云之前,请确保它们没有被其他资源绑定。

1

删除集群

获取实例连接地址

2

删除子网

下载和安装客户端

单击图片可查看原图

相关操作指导

视频小图标 Created with Sketch.

数据仓库服务_快速入门

视频小图标 Created with Sketch.

数据仓库服务_集群管理

视频小图标 Created with Sketch.

数据仓库服务_快照管理

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区