更新时间:2024-07-24 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
Spark输入
概述
“Spark输入”算子,将SparkSQL表的指定列转换成同等数量的输入字段。
输入与输出
- 输入:SparkSQL表列
 - 输出:字段
 
参数说明
| 
        参数  | 
      
        含义  | 
      
        类型  | 
      
        是否必填  | 
      
        默认值  | 
     
|---|---|---|---|---|
| 
        Spark数据库  | 
      
        SparkSQL的数据库名称。  | 
      
        String  | 
      
        否  | 
      
        default  | 
     
| 
        Spark表名  | 
      
        配置SparkSQL表名。 仅支持一个SparkSQL表。  | 
      
        String  | 
      
        是  | 
      
        无  | 
     
| 
        分区过滤器  | 
      
        配置分区过滤器可以导出指定分区数据,默认为空,导出整个表数据。 例如导出分区字段locale的值为“CN”或“US”的表数据,输入如下: locale = "CN" or locale = "US"  | 
      
        String  | 
      
        否  | 
      
        -  | 
     
| 
        Spark输入字段  | 
      
        配置SparkSQL输入信息: 
  | 
      
        map  | 
      
        是  | 
      
        -  | 
     
数据处理规则
- 当配置SparkSQL表名不存在时,作业提交失败。
 - 当配置的列名与SparkSQL表列名不匹配时,读取不到数据,导入数据条数会为0。
 - 当字段的值与实际的类型不匹配时,该行数据会成为脏数据。
 
样例
以SPARK导出到sqlserver2014数据库为例。
在sqlserver2014上创建一张空表“test_1”用于存储SparkSQL数据。执行以下语句:
create table test_1 (id int, name text, value text);
配置“Spark输入”算子,生成三个字段A、B和C:
设置了数据连接器后,单击,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。
 
   此操作会覆盖表格内已有数据。

通过“表输出”算子,将A、B和C输出到“test_1”表中:
select * from test_1;

   父主题: Loader输入类算子