文档首页/ MapReduce服务 MRS/ 用户指南/ 提交MRS作业/ 上传应用数据至MRS集群
更新时间:2024-09-04 GMT+08:00

上传应用数据至MRS集群

MRS集群处理的数据源通常来源于OBS文件系统或集群内的HDFS文件系统,OBS为客户提供海量、安全、高可靠、低成本的数据存储能力。

用户可以基于MRS管理控制台和OBS客户端对OBS数据进行浏览、管理和使用,也可以将OBS的数据导入集群的HDFS系统后进行处理,上传文件速率会随着文件大小的增大而变慢,适合数据量小的场景下使用。

导入OBS数据至HDFS

  1. 登录MRS管理控制台。
  2. 选择“现有集群”,选中一集群并单击集群名进入集群信息页面。

    若MRS集群为开启Kerberos认证的安全集群,需先完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。

  3. 单击“文件管理”进入文件管理页面。
  4. 选择“HDFS文件列表”

    图1 HDFS文件列表

  5. 进入待导入数据的存储目录。

    可以单击“新建”,创建新的文件夹目录,也可以选择在HDFS中已存在的文件夹。

  6. 单击“导入数据”,正确配置HDFS和OBS路径。

    配置OBS或者HDFS路径时,单击“浏览”并选择文件目录,然后单击“确定”
    图2 导入数据
    • OBS路径地址说明:
      • 必须以“obs://”开头。
      • 不支持导入KMS加密的文件或程序。
      • 不支持导入空的文件夹。
      • 目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\特殊字符。
      • 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
      • OBS全路径长度小于等于255字符。
    • HDFS路径地址说明:
      • 目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\:特殊字符。
      • 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
      • HDFS全路径长度小于等于255字符。

  7. 单击“确定”

    文件上传进度可在“文件操作记录”中查看,系统将数据导入操作生成一个Distcp作业处理,也可在作业管理中查看作业执行状态。

导出HDFS数据至OBS

  1. 登录MRS管理控制台。
  2. 选择“现有集群”,选中一集群并单击集群名进入集群基本信息页面。
  3. 单击“文件管理”,进入文件管理页面。
  4. 选择“HDFS文件列表”
  5. 进入数据存储目录。
  6. 单击“导出数据”,配置OBS和HDFS路径。配置OBS或者HDFS路径时,单击“浏览”并选择文件目录,然后单击“确定”

    图3 导出数据

    当导出文件夹到OBS系统时,在OBS路径下,将增加一个标签文件,文件命名为“folder name_$folder$”。请确保导出的文件夹为非空文件夹,如果导出的文件夹为空文件夹,OBS无法显示该文件夹,仅生成一个命名为“folder name_$folder$”的文件。

  7. 单击“确定”

    文件上传进度可在“文件操作记录”中查看,系统将数据导入操作生成一个Distcp作业处理,也可在作业管理中查看作业执行状态。