典型场景:从Spark导出数据到SFTP服务器
操作场景
该任务指导用户使用Loader将数据从Spark导出到SFTP服务器。
前提条件
- 创建或获取该任务中创建Loader作业的业务用户和密码。
- 确保用户已授权访问作业中指定的Spark表的权限。
- 获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器数据导出目录的写入权限。
- 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。
- 如果设置的任务需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。
- 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。
操作步骤
设置作业基本信息
- 登录“Loader WebUI”界面。
- 登录FusionInsight Manager系统。具体请参见访问FusionInsight Manager。
- 选择“集群 > 待操作集群名称 > 服务 > Loader”。
- 单击“LoaderServer(节点名称,主)”打开“Loader WebUI”界面。
图1 Loader WebUI界面
- 单击“新建作业”,进入“基本信息”界面,创建作业基本信息。
图2 基本信息界面
- 在“名称”中输入作业的名称。
- 在“类型”中选择“导出”。
- 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。
- 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。
- 在“优先级”中选择执行该作业的YARN队列优先级。默认值为“NORMAL”。可选值为“VERY_LOW”、“LOW”、“NORMAL”、“HIGH”和“VERY_HIGH”。
- 在“连接”区域,单击“添加”新建一个的连接,在“连接器”中选择“sftp-connector”,单击“添加”,输入配置连接参数,单击“测试”验证连接是否可用,待提示“测试成功”后单击“确定”。Loader支持配置多个SFTP服务器操作数据,单击“添加”可增加多行SFTP服务器的配置信息。
表1 连接参数 参数名
说明
示例
名称
SFTP服务器连接的名称。
sftpName
Sftp服务器的IP
SFTP服务器的IP地址。
10.16.0.1
Sftp服务器端口
SFTP服务器的端口号。
22
Sftp用户名
访问SFTP服务器的用户名。
root
Sftp密码
访问SFTP服务器的密码。
xxxx
Sftp公钥
Sftp服务器公钥。
OdDt/yn...etM
配置多个SFTP服务器时,Spark表将分成多份随机保存到各个SFTP服务器。
设置数据源信息
- 单击“下一步”,进入“输入设置”界面,在“源文件类型”中选择“SPARK”,设置数据源信息。
表2 数据源配置参数说明 参数名
解释说明
示例
Spark实例
在Spark作业中,Loader支持从集群可添加的所有Spark服务实例中选择任意一个。如果选定的Spark服务实例在集群中未添加,则此作业无法正常运行。
spark
个数
配置数据操作的MapReduce任务中同时启动的map数量。参数值必须小于或等于3000,建议以SFTP服务器当前最大连接数作为其取值。
20
设置数据转换
- 单击“下一步”,进入“转换”界面,设置数据传输过程中的转换操作。算子的选择和参数设置具体请参考算子帮助及表3。
图3 算子操作方法示意
设置数据保存信息并运行作业
- 单击“下一步”,进入“输出设置”界面,设置数据保存方式。
表4 输出设置参数 参数名
解释说明
示例
输出路径
SFTP服务器中导出文件的路径或者文件名,如果连接器配置多个地址此处可对应使用“;”分隔多个路径或者文件名,数量需要与连接器中服务器的数量一致。
说明:路径参数可以使用宏定义,具体请参考配置项中使用宏定义。
/opt/tempfile
文件操作方式
数据导入时的操作行为。全部数据从输入路径导入到目标路径时,先保存在临时目录,然后再从临时目录复制转移至目标路径,任务完成时删除临时路径的文件。转移临时文件存在同名文件时有以下行为:
- “OVERRIDE”:直接覆盖旧文件。
- “RENAME”:重命名新文件。无扩展名的文件直接增加字符串后缀,有扩展名的文件在文件名增加字符串后缀。字符串具有唯一性。
- “APPEND”:在旧文件尾部合并新文件内容。合并操作只是简单的追加,不保证追加文件是否可以使用。例如文本文件可合并,压缩文件合并后可能无法使用。
- “IGNORE”:保留旧文件,不复制新文件。
- “ERROR”:转移过程中出现同名文件时任务将停止执行并报错,已转移的文件导入成功,同名的文件及未转移的文档导入失败。
OVERRIDE
编码类型
导出文件的编码格式,如UTF-8。导出文本文件时才能配置。
UTF-8
压缩
使用SFTP协议导入数据时,是否开启压缩传输功能以减小带宽使用。
- 选择“true”,表示开启压缩。
- 选择“false”,表示关闭压缩。
true
- 单击“保存并运行”,开始保存并运行作业。
查看作业完成情况
- 进入“Loader WebUI”界面,待“状态”显示“成功”则说明作业完成。
图4 查看作业