样例:通过Loader将数据从OBS导入HDFS
操作场景
用户需要将大量数据从集群外导入集群内的时候,可以选择从OBS导入到HDFS的方式。
前提条件
- 已准备业务数据。
- 已创建分析集群。
操作步骤
- 将业务数据上传到用户的OBS文件系统。
- 获取用户的AK/SK信息,然后创建一个OBS连接和一个HDFS连接。
具体可参见Loader连接配置说明。
- 访问Loader页面。
如果是启用了Kerberos认证的分析集群,可参见访问Hue WebUI界面。
- 单击“新建作业”。
- 在“基本信息”填写参数。
- 在“名称”填写一个作业的名称。例如“obs2hdfs”。
- 在“源连接”选择已创建的OBS连接。
- “目的连接”选择已创建的HDFS连接。
- 在“自”填写源连接参数。
- 在“桶名”填写业务数据所保存的OBS文件系统名称。
- 在“源目录或文件”填写业务数据在文件系统的具体位置。
如果是单个文件,需要填写包含文件名的完整路径。如果是目录,填写目录的完整路径
- “文件格式”填写业务数据文件的类型。
可参见obs-connector。
- 在“至”填写目的连接参数。
- 在“定入目录”填写业务数据在HDFS要保存的目录名称。
如果是启用Kerberos认证的集群,当前访问Loader的用户对保存数据的目录需要有写入权限。
- 在“文件格式”填写业务数据文件的类型。
需要与6.c的类型对应。
- 在“压缩格式”填写一种压缩的算法。例如选择不压缩“NONE”。
- 在“是否覆盖”选择已有文件的处理方式,选择“True”。
- 单击“显示高级属性”,在“换行符”填写业务数据保存时,系统填充的换行字符。
- 在“字段分割符”填写业务数据保存时,系统填充的分割字符。
可参见hdfs-connector。
- 在“定入目录”填写业务数据在HDFS要保存的目录名称。
- 在“任务配置”填写作业的运行参数。
- 在“抽取并发数”填写map任务的个数。
- 在“加载(写入)并发数”填写reduce任务的个数。
目的连接为HDFS连接时,不显示“加载(写入)并发数”参数。
- “单个分片的最大错误记录数”填写错误记录阈值。
- 在“脏数据目录”填写一个脏数据的保存位置,例如“/user/sqoop/obs2hdfs-dd”。
- 单击“保存并运行”。
在“管理作业界面”,查看作业运行结果。可以单击“刷新列表”获取作业的最新状态。