步骤1:上传数据到OBS
从OBS导入数据到集群之前,需要提前准备数据源文件,并将数据源文件上传到OBS。如果您的数据文件已经在OBS上了,则只需完成上传数据到OBS中的2。
准备数据文件
GaussDB(DWS)支持将OBS上的TEXT、CSV、ORC和CARBONDATA格式的数据导入到集群中。本教程以CSV格式的数据为例进行演示。其他两种格式,方法相同,只在外表的相关参数项设置上有差异,详细请参见关于OBS并行导入。
为了演示如何导入多个文件,此教程使用如下3个CSV格式的数据文件作为示例进行讲解。在实际场景中,数据源文件通常是从其他数据库导出的。此教程出于操作的便利性,手动生成对应的CSV格式数据源文件。
- 数据文件“product_info0.csv”
示例数据如下所示:
100,XHDK-A,2017-09-01,A,2017 Shirt Women,red,M,328,2017-09-04,715,good! 205,KDKE-B,2017-09-01,A,2017 T-shirt Women,pink,L,584,2017-09-05,40,very good! 300,JODL-X,2017-09-01,A,2017 T-shirt men,red,XL,15,2017-09-03,502,Bad. 310,QQPX-R,2017-09-02,B,2017 jacket women,red,L,411,2017-09-05,436,It's nice. 150,ABEF-C,2017-09-03,B,2017 Jeans Women,blue,M,123,2017-09-06,120,good.
- 数据文件“product_info1.csv”
示例数据如下所示:
200,BCQP-E,2017-09-04,B,2017 casual pants men,black,L,997,2017-09-10,301,good quality. 250,EABE-D,2017-09-10,A,2017 dress women,black,S,841,2017-09-15,299,This dress fits well. 108,CDXK-F,2017-09-11,A,2017 dress women,red,M,85,2017-09-14,22,It's really amazing to buy. 450,MMCE-H,2017-09-11,A,2017 jacket women,white,M,114,2017-09-14,22,very good. 260,OCDA-G,2017-09-12,B,2017 woolen coat women,red,L,2004,2017-09-15,826,Very comfortable.
- 数据文件“product_info2.csv”
示例数据如下所示:
980,"ZKDS-J",2017-09-13,"B","2017 Women's Cotton Clothing","red","M",112,,, 98,"FKQB-I",2017-09-15,"B","2017 new shoes men","red","M",4345,2017-09-18,5473 50,"DMQY-K",2017-09-21,"A","2017 pants men","red","37",28,2017-09-25,58,"good","good","good" 80,"GKLW-l",2017-09-22,"A","2017 Jeans Men","red","39",58,2017-09-25,72,"Very comfortable." 30,"HWEC-L",2017-09-23,"A","2017 shoes women","red","M",403,2017-09-26,607,"good!" 40,"IQPD-M",2017-09-24,"B","2017 new pants Women","red","M",35,2017-09-27,52,"very good." 50,"LPEC-N",2017-09-25,"B","2017 dress Women","red","M",29,2017-09-28,47,"not good at all." 60,"NQAB-O",2017-09-26,"B","2017 jacket women","red","S",69,2017-09-29,70,"It's beautiful." 70,"HWNB-P",2017-09-27,"B","2017 jacket women","red","L",30,2017-09-30,55,"I like it so much" 80,"JKHU-Q",2017-09-29,"C","2017 T-shirt","red","M",90,2017-10-02,82,"very good."
CSV(Comma Separated Values),逗号分隔值。.csv类似于.txt、.doc等,是一种文件格式。也可理解成是一种特殊格式的纯文本文件。文件内容由记录组成,每条记录被逗号或制表符(Tab)分隔为字段,且每条记录都有同样的字段序列。在Windows系统环境下.csv文件打开方式有多种,如记事本、Excel、Notepad++等。
以下是Windows下生成.csv文件的办法之一:
- 新建文本文档并使用notepad++打开后,将示例数据拷贝进文本文档中。注意拷贝后检查下数据的行数及数据分行的正确性。
- 选择“格式>以UTF-8无BOM格式编码”。
- 选择“文件>另存为”。
- 在弹出的对话框中输入文件名后,单击“保存”。
出于标识的目的,输入文件名的时候,建议将文件后缀设为.csv。
上传数据到OBS
- 将上面准备的3个CSV格式的数据源文件存储到OBS桶中。
- 登录OBS管理控制台。
单击“服务列表”,选择“对象存储服务”,打开OBS管理控制台页面。或者,您也可以通过访问以下地址登录OBS管理控制台:https://storage.huaweicloud.com。
- 创建桶。
如何创建OBS桶,具体请参见《对象存储服务控制台指南》中的创建桶章节。
例如,创建以下两个桶:“mybucket”和“mybucket02”。
- 新建文件夹。
具体请参见《对象存储服务控制台指南》中的新建文件夹章节。
例如:
- 在已创建的OBS桶“mybucket”中新建一个文件夹“input_data”。
- 在已创建的OBS桶“mybucket02”中新建一个文件夹“input_data”。
- 上传文件。
具体请参见《对象存储服务控制台指南》的上传对象章节。
例如:
- 将以下数据文件上传到OBS桶“mybucket”的“input_data”目录中。
product_info0.csv product_info1.csv
- 将以下数据文件上传到OBS桶“mybucket02”的“input_data”目录中。
product_info2.csv
- 将以下数据文件上传到OBS桶“mybucket”的“input_data”目录中。
- 登录OBS管理控制台。
- 为导入用户设置OBS桶的读取权限。
在从OBS导入数据到集群时,执行导入操作的用户需要取得数据源文件所在OBS桶的读取权限。通过配置桶的ACL权限,可以将读取权限授予指定的用户帐号。
具体请参见《对象存储服务控制台指南》中的配置桶ACL章节。
