更新时间:2024-05-11 GMT+08:00
Hive输出
概述
“Hive输出”算子,用于配置已生成的字段输出到Hive表的列。
输入与输出
- 输入:需要输出的字段
- 输出:Hive表
参数说明
参数 |
含义 |
类型 |
是否必填 |
默认值 |
---|---|---|---|---|
Hive文件存储格式 |
配置Hive表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。
说明:
|
enum |
是 |
CSV |
Hive文件压缩格式 |
在下拉菜单中选择Hive表文件的压缩格式,未配置或选择“NONE”表示不压缩数据。 |
enum |
是 |
NONE |
Hive ORC文件版本 |
通过该字段配置ORC文件的版本(当Hive表文件的存储格式是ORC时)。 |
enum |
是 |
0.12 |
输出分隔符 |
配置分隔符。 |
string |
是 |
无 |
输出字段 |
配置输出信息:
|
map |
是 |
无 |
数据处理规则
- 将字段值输出到Hive表中。
- 如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。
- 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。
样例
通过“CSV文件输入”算子,生成两个字段a_str和b_str。
源文件如下:
配置“Hive输出”算子,将a_str和b_str输出到Hive的表中。
执行成功后,查看表数据:
父主题: 输出算子