文档首页 > > 开发指南> 导入数据> 从OBS并行导入数据> 上传数据到OBS

上传数据到OBS

分享
更新时间: 2019/06/24 09:14

操作场景

从OBS导入数据到集群之前,需要提前准备数据源文件,并将数据源文件上传到OBS。如果您的数据文件已经在OBS上了,则只需完成上传数据到OBS中的2~3

准备数据文件

准备需要上传到OBS的数据源文件。DWS只支持CSV、TEXT和ORC格式的数据源文件。

如果用户数据无法以CSV格式保存,可以选择以文本类型保存为其他任意格式后缀的文件。

说明:

根据导入数据原理,当数据源文件的数据量较大时,将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件数量为DataNode的整数倍时,导入性能最佳。

上传数据到OBS

  1. 上传数据到OBS。

    将待导入的数据源文件存储在OBS桶中。

    1. 登录OBS管理控制台。

      单击“服务列表”,选择“对象存储服务”,打开OBS管理控制台页面。

      或者,您也可以通过访问以下地址登录OBS管理控制台:https://storage.huaweicloud.com

    2. 创建桶。

      如何创建OBS桶,具体请参见《对象存储服务控制台指南》中的创建桶章节。

      例如,创建以下两个桶:“mybucket”和“mybucket02”。

    3. 新建文件夹。

      具体请参见《对象存储服务控制台指南》中的新建文件夹章节。

      例如:

      • 在已创建的OBS桶“mybucket”中新建一个文件夹“input_data”。
      • 在已创建的OBS桶“mybucket02”中新建一个文件夹“input_data”。
    4. 上传文件。

      具体请参见《对象存储服务控制台指南》的上传文件章节。

      例如:

      • 将以下数据文件上传到OBS桶“mybucket”的“input_data”目录中。
        product_info.0
        product_info.1
      • 将以下数据文件上传到OBS桶“mybucket02”的“input_data”目录中。
        product_info.2

  2. 获取数据源文件的OBS路径。

    数据源文件在上传到OBS桶之后,会生成全局唯一的访问路径。数据源文件的OBS路径用于创建外表时location参数设置。

    location参数中OBS文件的路径由“obs://”、桶名和文件路径组成,即为:

    obs://<bucket_name>/<file_path>

    例如,在本例中,location参数中数据文件的OBS路径分别为:

    obs://mybucket/input_data/product_info.0
    obs://mybucket/input_data/product_info.1
    obs://mybucket02/input_data/product_info.2

  3. 为导入用户设置OBS桶的读取权限。

    在从OBS导入数据到集群时,执行导入操作的用户需要取得数据源文件所在OBS桶的读取权限。通过配置桶的ACL权限,可以将读取权限授予指定的用户帐号。

    具体请参见《对象存储服务控制台指南》中的配置桶ACL章节。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区