更新时间:2024-08-08 GMT+08:00
分享

配置Hive目的端参数

支持快速导入数据到MRS的Hive。

表1 Hive作为目的端时的作业参数

类别

参数名

说明

取值样例

基本参数

数据库

输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。

default

表名

输入或选择写入数据的目标表名。单击输入框后面的按钮可进入表的选择界面。

该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步

说明:

如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。

TBL_X

hive写入模式

选择hive的写入模式。

  • TRUNCATE+LOAD:TRUNCATE模式只清理分区下的数据文件,不删除分区。
  • LOAD:写入前不做任何处理。
  • LOAD_OVERWRITE:将生成一个临时目录,目录名为:表名_UUID,使用hive的load overwrite语法将临时目录加载到hive表中。

LOAD_OVERWRITE

分区过滤条件

TRUNCATE模式,支持多组分区,并在对应的输入框填的值即可。

LOAD_OVERWRITE模式,仅支持写入一组分区。

-

高级属

是否将null转换为“null”

配置null值的转换类型。

  • TO_NULL:null值不处理。
  • TO_EMPTY_STRRING:将null值转换为空字符串。
  • TO_NULL_STRING:将null值转换为"null"字符串。

TO_NULL

换行符处理方

对于写入hive textfile格式表的数据中存在换行符的场景,指定对换行符的处理策略。

支持删除,替换为其它字符串及不处理三种方式。

删除

换行符替换字符串

换行符处理方式设置为“替换为其他字符串”时,呈现此参数。

当换行符处理方式选择为替换时,指定替换的字符串。

-

执行Analyze语句

数据全部写入完成后会异步执行ANALYZE TABLE语句,用于优化Hive表查询速度,执行的SQL如下:

  • 非分区表:ANALYZE TABLE tablename COMPUTE STATISTICS
  • 分区表:ANALYZE TABLE tablename PARTITION(partcol1[=val1], partcol2[=val2], ...) COMPUTE STATISTICS
说明:
  • “执行Analyze语句”参数配置仅用于单表迁移场景。
  • 执行ANALYZE语句可能会对Hive造成压力。

相关文档