从零开始使用Loader
用户可以使用Loader将数据从SFTP服务器导入到HDFS。
本章节适用于MRS 3.x之前版本。
前提条件
- 已准备业务数据。
- 已创建分析集群。
操作步骤
- 访问Loader页面。
- 登录集群详情页面,选择“服务管理”。
- 选择“Hue概述”的“Hue WebUI”,单击“Hue (主)”,打开Hue的WebUI。 ,在
- 选择
默认显示Loader页面中的作业管理界面。
。
- 在Loader页面,单击“管理连接”。
- 单击“新建连接”,参考文件服务器连接,创建sftp-connector。
- 单击“新建连接”,输入连接名称,选择连接器为hdfs-connector,创建hdfs-connector。
- 访问Loader页面,单击“管理作业”。
- 单击“新建作业”。
- 在“基本信息”填写参数。
- 在“自”填写源连接的作业配置。
- 在“至”填写目的连接的作业配置。
具体请参见hdfs-connector。
- 在“任务配置”填写作业的运行参数。
表1 Loader作业运行属性 参数
说明
抽取并发数
设置map任务的个数。
加载(写入)并发数
设置reduce任务的个数。
该参数只有在目的字段为Hbase和Hive时才会显示。
单个分片的最大错误记录数
设置一个错误阈值,如果单个map任务的错误记录超过设置阈值则任务自动结束,已经获取的数据不回退。
说明:“generic-jdbc-connector”的“MYSQL”和“MPPDB”默认批量读写数据,每一批次数据最多只记录一次错误记录。
脏数据目录
设置一个脏数据目录,在出现脏数据的场景中在该目录保存脏数据。如果不设置则不保存。
- 单击“保存”。