导出Doris查询结果集
本章节主要介绍如何使用SELECT INTO OUTFILE命令,将Doris查询结果集使用指定的文件格式导出到指定的存储系统中。
- 导出命令不会检查文件及文件路径是否存在、是否会自动创建路径、或是否会覆盖已存在文件,由远端存储系统的语义决定。
- 如果在导出过程中出现错误,可能会有导出文件残留在远端存储系统上,Doris不会清理这些文件,需要手动清理。
- 导出命令的超时时间同查询的超时时间,可以通过SET query_timeout=xxx进行设置。
- 对于结果集为空的查询,依然会产生一个大小为0的文件。
- 文件切分会保证一行数据完整的存储在单一文件中,因此文件的大小并不严格等max_file_size。
- 对于部分输出为非可见字符的函数,如BITMAP、HLL类型,输出为\N,即NULL。
- 目前部分地理信息函数,如ST_Point的输出类型为VARCHAR,但实际输出值为经过编码的二进制字符,当前这些函数会输出乱码。对于地理函数,请使用ST_AsText进行输出。
语法介绍
query_stmt
INTO OUTFILE "file_path"
[format_as]
[properties]
file_path
format_as
properties
format_as:表示指定导出格式,支持CSV、PARQUET、CSV_WITH_NAMES、CSV_WITH_NAMES_AND_TYPES、ORC,默认为CSV。
示例
- 导出到HDFS
将简单查询结果导出到文件“hdfs://path/to/result.txt”中,并指定导出格式为CSV。
- 集群已启用Kerberos认证(安全模式)
SELECT * FROM example_db.test_export_tbl
INTO OUTFILE "hdfs://192.168.67.78:25000/tmp/result_"
FORMAT AS CSV
PROPERTIES
(
"broker.name" = "broker_192_168_67_78",
"column_separator" = ",",
"line_delimiter" = "\n",
"max_file_size" = "100MB",
"broker.hadoop.security.authentication" = "kerberos",
"broker.kerberos_principal" = "doris/hadoop.hadoop.com@HADOOP.COM",
"broker.kerberos_keytab" = "${BIGDATA_HOME}/FusionInsight_Doris_8.3.0/install/FusionInsight-Doris-1.2.3/doris-fe/bin/doris.keytab"
);
- 集群未启用Kerberos认证(普通模式)
SELECT * FROM example_db.test_export_tbl
INTO OUTFILE "hdfs://192.168.67.78:25000/tmp/result_"
FORMAT AS CSV
PROPERTIES
(
"broker.name" = "broker_192_168_67_78",
"column_separator" = ",",
"line_delimiter" = "\n",
"max_file_size" = "100MB",
"broker.username"="hdfs",
"broker.password"=""
);
- 集群已启用Kerberos认证(安全模式)
- 导出到本地文件
导出到本地文件时需要先在“fe.conf”中配置enable_outfile_to_local=true。
select * from tbl1 limit 10
INTO OUTFILE "file:///home/work/path/result_";