更新时间:2024-11-23 GMT+08:00
Hive输出
概述
“Hive输出”算子,用于配置已生成的字段输出到Hive表的列。
输入与输出
- 输入:需要输出的字段
- 输出:Hive表
参数说明
| 参数 | 含义 | 类型 | 是否必填 | 默认值 |
|---|---|---|---|---|
| Hive文件存储格式 | 配置Hive表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 说明:
| enum | 是 | CSV |
| Hive文件压缩格式 | 在下拉菜单中选择Hive表文件的压缩格式,未配置或选择“NONE”表示不压缩数据。 | enum | 是 | NONE |
| Hive ORC文件版本 | 通过该字段配置ORC文件的版本(当Hive表文件的存储格式是ORC时)。 | enum | 是 | 0.12 |
| 输出分隔符 | 配置分隔符。 | string | 是 | 无 |
| 输出字段 | 配置输出信息:
| map | 是 | 无 |
数据处理规则
- 将字段值输出到Hive表中。
- 如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。
- 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。
样例
通过“CSV文件输入”算子,生成两个字段a_str和b_str。
源文件如下:

配置“Hive输出”算子,将a_str和b_str输出到Hive的表中。

执行成功后,查看表数据:

父主题: 输出算子