更新时间:2023-10-14 GMT+08:00
如何准备MRS的数据源?
MRS既可以处理OBS中的数据,也可以处理HDFS中的数据。在使用MRS分析数据前,需要先准备数据。
- 将本地数据上传OBS。
- 登录OBS管理控制台。
- 在OBS上创建userdata并行文件系统,然后在userdata文件系统下创建program、input、output和log文件夹。
- 单击“并行文件系统 > 创建并行文件系统”,创建一个名称为userdata的文件系统。
- 在OBS文件系统列表中单击文件系统名称userdata,选择“文件 > 新建文件夹”,分别创建program、input、output和log目录。
- 上传数据至userdata文件系统。
- 进入program文件夹,单击“上传文件”。
- 单击“添加文件”并选择用户程序。
- 单击“上传”。
- 使用同样方式将用户数据文件上传至input目录。
- 将OBS数据导入至HDFS。
当“Kerberos认证”为“关闭”,且运行中的集群,可执行将OBS数据导入至HDFS的操作。
- 登录MRS管理控制台。
- 单击集群名称进入集群详情页面。
- 单击“HDFS文件列表”。 ,选择
- 进入数据存储目录,如“bd_app1”。
“bd_app1”目录仅为示例,可以是界面上的任何目录,也可以通过“新建”创建新的目录。
- 单击“导入数据”,通过单击“浏览”选择OBS和HDFS路径,如图1所示。
- 单击“确定”。
文件上传进度可在“文件操作记录”中查看。
父主题: 作业开发类
作业开发类 所有常见问题
- 如何准备MRS的数据源?
- MRS集群支持提交哪些形式的Spark作业?
- MRS集群的租户资源最小值改为0后,只能同时运行一个Spark任务吗?
- 作业提交参数间用空格隔开导致参数信息不被识别如何处理?
- Spark作业的Client模式和Cluster模式有什么区别?
- 如何查看MRS作业的日志?
- 提交作业时系统提示当前用户在Manager不存在如何处理?
- LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理?
- 为什么MRS Console页面Flink作业状态与Yarn上的作业状态不一致?
- SparkStreaming作业运行几十个小时后失败,报OBS访问403如何处理?
- ClickHouse客户端执行SQL查询时报内存不足如何处理?
- Spark运行作业报错“java.io.IOException: Connection reset by peer”如何处理?
- Spark作业访问OBS报错“requestId=XXX”如何处理?
- Spark作业报错“UnknownScannerExeception”如何处理?
- DataArts Studio调度Spark作业偶现失败如何处理?
- Flink任务运行失败,报错“java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED”如何处理?
- 提交的Yarn作业在界面上查看不到如何处理?
- 如何修改现有集群的HDFS fs.defaultFS?
- 提交Flink任务时launcher-job被Yarn终止如何处理?
- 提交Flink作业时报错slot request timeout如何处理?
- DistCP作业导入导出数据常见问题
- 如何通过Yarn WebUI查看Hive作业对应的SQL语句?
- 如何查看指定Yarn任务的日志?
more