更新时间:2024-07-24 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
Spark输出
概述
“Spark输出”算子,用于配置已生成的字段输出到SparkSQL表的列。
输入与输出
- 输入:需要输出的字段
 - 输出:SparkSQL表
 
参数说明
| 
        参数  | 
      
        含义  | 
      
        类型  | 
      
        是否必填  | 
      
        默认值  | 
     
|---|---|---|---|---|
| 
        Spark文件存储格式  | 
      
        配置SparkSQL表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 
         说明: 
         
  | 
      
        enum  | 
      
        是  | 
      
        CSV  | 
     
| 
        Spark文件压缩格式  | 
      
        在下拉菜单中选择SparkSQL表文件的压缩格式,未配置或选择“NONE”表示不压缩数据。  | 
      
        enum  | 
      
        是  | 
      
        NONE  | 
     
| 
        Spark ORC文件版本  | 
      
        通过该字段配置ORC文件的版本(当SparkSQL表文件的存储格式是ORC时)。  | 
      
        enum  | 
      
        是  | 
      
        0.12  | 
     
| 
        输出分隔符  | 
      
        配置分隔符。  | 
      
        string  | 
      
        是  | 
      
        无  | 
     
| 
        输出字段  | 
      
        配置输出信息: 
  | 
      
        map  | 
      
        是  | 
      
        无  | 
     
数据处理规则
- 将字段值输出到SparkSQL表中。
 - 如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。
 - 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。
 
样例
通过“CSV文件输入”算子,生成两个字段A和B。
源文件如下:

配置“Spark输出”算子,将A和B输出到SparkSQL的表中。

   父主题: Loader输出类算子