使用Loader从HBase导出数据到HDFS/OBS

该任务指导用户使用Loader将数据从HBase导出到HDFS/OBS。

设置作业基本信息

登录“Loader WebUI”界面。
1. 登录FusionInsight Manager系统，具体请参见访问集群Manager。
2. 选择“集群 > 服务 > Loader”。
3. 单击“LoaderServer(节点名称，主)”打开“Loader WebUI”界面。
  图1 Loader WebUI界面
单击“新建作业”，进入“基本信息”界面，创建作业基本信息。

图2 基本信息界面
1. 在“名称”中输入作业的名称。
2. 在“类型”中选择“导出”。
3. 在“组”中设置作业所属组，默认没有已创建的组，单击“添加”创建一个新的组，输入组的名称，单击“确定”保存。
4. 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。
5. 在“优先级”中选择执行该作业的YARN队列优先级。默认值为“NORMAL”。可选值为“VERY_LOW”、“LOW”、“NORMAL”、“HIGH”和“VERY_HIGH”。
在“连接”区域，单击“添加”新建一个连接，在“连接器”中选择“hdfs-connector”，输入配置连接参数，单击“测试”验证连接是否可用，待提示“测试成功”后单击“确定”。

设置数据源信息

单击“下一步”，进入“输入设置”界面，在“源文件类型”中选择“HBASE”，设置数据源信息。

表1 输入设置参数
参数名	解释说明	示例
HBase实例	在HBase作业中，Loader支持从集群可添加的所有HBase服务实例中选择任意一个。如果选定的HBase服务实例在集群中未添加，则此作业无法正常运行。	HBase
个数	配置数据操作的MapReduce任务中同时启动的map数量。参数值必须小于或等于3000。	20

设置数据转换

单击“下一步”，进入“转换”界面，设置数据传输过程中的转换操作。算子的选择和参数设置具体请参考Loader算子帮助及表2。

表2 算子输入、输出参数设置
输入类型	输出类型
HBase输入	文件输出

图3 算子操作方法示意
点击放大

设置数据保存信息并运行作业

单击“下一步”，进入“输出设置”界面，设置数据保存方式。

表3 输出设置参数
参数名	解释说明	示例
输出路径	导出文件在HDFS/OBS的输出目录或者文件名。说明：路径参数可以使用宏定义，具体请参考Loader算子配置项中使用宏定义。	/user/test
文件格式	文件导出类型： “TEXT_FILE”：导入文本文件并保存为文本文件。 “SEQUENCE_FILE”：导入文本文件并保存在“sequence file”文件格式。 “BINARY_FILE”：以二进制流的方式导入文件，可以导入任何格式的文件。	TEXT_FILE
压缩格式	在下拉菜单中选择数据导出到HDFS/OBS后保存文件的压缩格式，未配置或选择“NONE”表示不压缩数据。	NONE