更新时间:2022-09-30 GMT+08:00

自定义行分隔符

操作场景

通常情况下,Hive以文本文件存储的表会以回车作为其行分隔符,即在查询过程中,以回车符作为一行表数据的结束符。但某些数据文件并不是以回车分隔的规则文本格式,而是以某些特殊符号分割其规则文本。

MRS Hive支持指定不同的字符或字符组合作为Hive文本数据的行分隔符,即在创建表的时候,指定inputformat为SpecifiedDelimiterInputFormat,然后在每次查询前,都设置如下参数来指定分隔符,就可以以指定的分隔符查询表数据。

set hive.textinput.record.delimiter='';

  • 当前版本的Hue组件,不支持导入文件到Hive表时设置多个分割符。
  • 本章节适用于MRS 3.x及后续版本。

操作步骤

  1. 创建表时指定inputFormat和outputFormat:

    CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [ROW FORMAT row_format] STORED AS inputformat 'org.apache.hadoop.hive.contrib.fileformat.SpecifiedDelimiterInputFormat' outputformat 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

  2. 查询之前指定配置项:

    set hive.textinput.record.delimiter='!@!'

    Hive会以‘!@!’为行分隔符查询数据。