上传数据
集群创建成功后,用户通过
页面可以在分析集群进行HDFS目录的创建、删除,文件的导入、导出、删除等操作。若集群为开启Kerberos认证的安全集群,请在使用“文件管理”前,先完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
背景信息
MRS集群处理的数据源通常来源于OBS或HDFS,OBS为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据,客户可以基于管理控制台Web界面和OBS客户端对数据进行浏览、管理和使用。如果需要将OBS的数据导入集群的HDFS系统后进行处理,可参考以下步骤进行操作。
导入数据
MRS目前支持将OBS上的数据导入至HDFS中。上传文件速率会随着文件大小的增大而变慢,适合数据量小的场景下使用。
支持导入文件和目录,操作方法如下:
- 登录MRS管理控制台。
- 选择“集群列表 > 现有集群”,选中一集群并单击集群名进入集群信息页面。
- 单击“文件管理”,进入 页面。
- 选择“HDFS文件列表”。
- 进入数据存储目录,如“bd_app1”。
“bd_app1”目录仅为示例,可以是界面上的任何目录,也可以通过“新建”创建新的文件夹。
新建文件夹时需要满足以下要求:
- 文件夹名称小于等于255字符。
- 不允许为空。
- 不能包含 : /:*?"<>|\;&,'`!{}[]$%+特殊字符。
- 不能以“.”开头或结尾。
- 开头和末尾的空格会被忽略。
- 单击“导入数据”,正确配置HDFS和OBS路径。配置OBS或者HDFS路径时,单击“浏览”并选择文件目录,然后单击“是”。
- OBS路径
- 必须以“obs://”开头。
- 不支持导入KMS加密的文件或程序。
- 不支持导入空的文件夹。
- 目录和文件名称可以包含字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\特殊字符。
- 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
- OBS全路径长度小于等于255字符。
- HDFS路径
- 默认以“/user”开头。
- 目录和文件名称可以包含字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\:特殊字符。
- 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
- HDFS全路径长度小于等于255字符。
- OBS路径
- 单击“确定”。
文件上传进度可在“文件操作记录”中查看。MRS将数据导入操作当做Distcp作业处理,也可在 中查看Distcp作业是否执行成功。
导出数据
数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。
支持导出文件和目录,操作方法如下:
- 登录MRS管理控制台。
- 选择“集群列表 > 现有集群”,选中一集群并单击集群名进入集群基本信息页面。
- 单击“文件管理”,进入 页面。
- 选择“HDFS文件列表”。
- 进入数据存储目录,如“bd_app1”。
- 单击“导出数据”,配置OBS和HDFS路径。配置OBS或者HDFS路径时,单击“浏览”并选择文件目录,然后单击“是”。
- OBS路径
- 必须以“obs://”开头。
- 目录和文件名称可以包含字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\特殊字符。
- 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
- OBS全路径长度小于等于255字符。
- HDFS路径
- 默认以“/user”开头。
- 目录和文件名称可以包含字母、数字、中划线和下划线,但不能包含;|&>,<'$*?\:特殊字符。
- 目录和文件名称不能以空格开头或结尾,中间可以包含空格。
- HDFS全路径长度小于等于255字符。
当导出文件夹到OBS系统时,在OBS路径下,将增加一个标签文件,文件命名为“folder name_$folder$”。请确保导出的文件夹为非空文件夹,如果导出的文件夹为空文件夹,OBS无法显示该文件夹,仅生成一个命名为“folder name_$folder$”的文件。
- OBS路径
- 单击“确定”。
文件上传进度可在“文件操作记录”中查看。MRS将数据导出操作当做Distcp作业处理,也可在 中查看Distcp作业是否执行成功。