更新时间:2024-11-29 GMT+08:00
Spark输出
概述
“Spark输出”算子,用于配置已生成的字段输出到SparkSQL表的列。
输入与输出
- 输入:需要输出的字段
- 输出:SparkSQL表
参数说明
参数 |
含义 |
类型 |
是否必填 |
默认值 |
---|---|---|---|---|
Spark文件存储格式 |
配置SparkSQL表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。
说明:
|
enum |
是 |
CSV |
Spark文件压缩格式 |
在下拉菜单中选择SparkSQL表文件的压缩格式,未配置或选择“NONE”表示不压缩数据。 |
enum |
是 |
NONE |
Spark ORC文件版本 |
通过该字段配置ORC文件的版本(当SparkSQL表文件的存储格式是ORC时)。 |
enum |
是 |
0.12 |
输出分隔符 |
配置分隔符。 |
string |
是 |
无 |
输出字段 |
配置输出信息:
|
map |
是 |
无 |
数据处理规则
- 将字段值输出到SparkSQL表中。
- 如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。
- 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。
样例
通过“CSV文件输入”算子,生成两个字段A和B。
源文件如下:
配置“Spark输出”算子,将A和B输出到SparkSQL的表中。
父主题: 输出算子