更新时间:2024-10-11 GMT+08:00

导入导出数据

用户通过文件管理页面可以在分析集群进行文件夹创建、删除,文件导入、导出、删除操作,暂不支持文件创建功能。流式集群暂不支持在界面使用“文件管理”功能。开启Kerberos认证的集群中,根目录下的文件夹有权限限制,如需对其进行读写,请参考创建角色内容添加拥有对应文件夹权限的角色,再请参考相关任务修改提交作业用户所属的用户组,将新增的组件角色加入到该用户组中。

背景信息

MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),OBS即对象存储服务,是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据,客户可以基于管理控制台Web界面和OBS客户端对数据进行浏览、管理和使用,同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。

用户创建作业前需要将本地数据上传至OBS系统,MRS使用OBS中的数据进行计算分析。当然MRS也支持将OBS中的数据导入至HDFS中,使用HDFS中的数据进行计算分析。数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。需要注意,HDFS和OBS也支持存储压缩格式的数据,目前支持存储bz2、gz压缩格式的数据。

导入数据

MRS目前只支持将OBS上的数据导入至HDFS中。上传文件速率会随着文件大小的增大而变慢,适合数据量小的场景下使用。

支持导入文件和目录,操作方法如下:

  1. 登录MRS管理控制台。
  2. 选择“集群列表 > 现有集群”,选中一集群并单击集群名进入集群信息页面。
  3. 单击“文件管理”进入文件管理页面。
  4. 选择“HDFS文件列表”
  5. 进入数据存储目录,如“bd_app1”

    “bd_app1”目录仅为示例,可以是界面上的任何目录,也可以通过“新建”创建新的文件夹。

    新建文件夹时需要满足以下要求:

    • 文件夹名称小于等于255字符,全路径长度小于等于1023字符。
    • 不允许为空。
    • 不能包含 : /:*?"<>|\;&,'`!{}[]$%+特殊字符。
    • 不能以“.”开头或结尾。
    • 开头和末尾的空格会被忽略。
  6. 单击“导入数据”,正确配置HDFS和OBS路径。配置OBS或者HDFS路径时,单击“浏览”并选择文件目录,然后单击“是”
    • OBS路径
      • 必须以“obs://”开头。
      • 不支持导入KMS加密的文件或程序。
      • 不支持导入空的文件夹。
      • 目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\特殊字符。
      • 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
      • OBS全路径长度小于等于1023字符。
    • HDFS路径
      • 默认以“/user”开头。
      • 目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\:特殊字符。
      • 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
      • HDFS全路径长度小于等于1023字符。
  7. 单击“确定”

    文件上传进度可在“文件操作记录”中查看。MRS将数据导入操作当做Distcp作业处理,也可在作业管理中查看Distcp作业是否执行成功。

导出数据

数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。

支持导出文件和目录,操作方法如下:

  1. 登录MRS管理控制台。
  2. 选择“集群列表 > 现有集群”,选中一集群并单击集群名进入集群基本信息页面。
  3. 单击“文件管理”,进入文件管理页面。
  4. 选择“HDFS文件列表”
  5. 进入数据存储目录,如“bd_app1”
  6. 单击“导出数据”,配置OBS和HDFS路径。配置OBS或者HDFS路径时,单击“浏览”并选择文件目录,然后单击“是”
    • OBS路径
      • 必须以“obs://”开头。
      • 目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\特殊字符。
      • 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
      • OBS全路径长度小于等于1023字符。
    • HDFS路径
      • 默认以“/user”开头。
      • 目录和文件名称可以包含中文、字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\:特殊字符。
      • 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
      • HDFS全路径长度小于等于1023字符。

    当导出文件夹到OBS系统时,在OBS路径下,将增加一个标签文件,文件命名为“folder name_$folder$”。请确保导出的文件夹为非空文件夹,如果导出的文件夹为空文件夹,OBS无法显示该文件夹,仅生成一个命名为“folder name_$folder$”的文件。

  7. 单击“确定”

    文件上传进度可在“文件操作记录”中查看。MRS将数据导出操作当做Distcp作业处理,也可在作业管理中查看Distcp作业是否执行成功。

查看文件操作记录

通过MRS管理控制台导入和导出数据时,可在文件管理 > 文件操作记录查看数据导入、导出进度。

文件操作记录参数说明如表1所示。

表1 文操作记录参数说明

Parameter

Description

提交时间

数据导入或导出操作的开始时间。

源目录

数据的源路径。

  • 数据导入时“源目录”为OBS路径
  • 数据导出时“源目录”为HDFS路径

目标目录

数据的目标路径。

  • 数据导入时“目标目录”为HDFS路径
  • 数据导出时“目标目录”为OBS路径

状态

数据导入或导出操作的状态。
  • 已提交
  • 已接受
  • 运行中
  • 已完成
  • 已终止
  • 异常

持续时间(分钟)

数据导入或导出操作的总时间。

单位:分钟

执行结果

数据导入或导出操作的结果。

  • 成功
  • 失败
  • 终止
  • 未定

操作

查看日志:查看文件操作日志。