文档首页 > > 开发指南> 导出数据> 并行导出数据到OBS> 示例

示例

分享
更新时间: 2019/11/12 GMT+08:00

单表导出操作步骤

通过创建外表,将数据库中的单表导出至OBS的两个桶中。

  1. 用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上,分别创建数据文件存放的两个桶“/input_data1”“/input_data2”,并创建每个桶下面的data目录“/input_data1/data”“/input_data2/data”。
  2. DWS数据库上,创建外表tpcds.customer_address_ext1和tpcds.customer_address_ext2用于OBS数据服务器接收数据库导出数据。

    OBS与集群处于同一区域,需要导出的表为DWS示例表tpcds.customer_address。

    其中设置的导出信息如下所示:

    • 由于OBS数据服务器上的数据源文件存放目录为“/input_data1/data/ ”和/input_data2/data/ ,所以设置tpcds.customer_address_ext1参数“location”为“obs://input_data1/data/ ”,设置tpcds.customer_address_ext2参数“location”为“ obs://input_data2/data/”。

    设置的数据格式信息是根据表从数据库导出时需要的详细数据格式参数信息指定的,参数设置如下所示:

    • 数据源文件格式(format)为CSV。
    • 编码格式(encoding)为UTF-8。
    • 字段分隔符(delimiter)为0E08。
    • 引号字符(quote)为0x1b。
    • 使用加密(encrypt)为 'on'。
    • 用户获取OBS访问协议对应的AK值(access_key )。(必选)
    • 用户获取OBS访问协议对应的SK值(secret_access_key)。(必选)

      用户在创建用户时已经获取了access_key和secret_access_key的密钥,请根据实际密钥替换示例中的斜体内容。

    根据以上信息,创建的外表如下所示:

    CREATE FOREIGN TABLE tpcds.customer_address_ext1
    (
    ca_address_sk             integer                       ,
    ca_address_id             char(16)                      ,
    ca_street_number          char(10)                      ,
    ca_street_name            varchar(60)                   ,
    ca_street_type            char(15)                      ,
    ca_suite_number           char(10)                      ,
    ca_city                   varchar(60)                   ,
    ca_county                 varchar(30)                   ,
    ca_state                  char(2)                       ,
    ca_zip                    char(10)                      ,
    ca_country                varchar(20)                   ,
    ca_gmt_offset             decimal(5,2)                  ,
    ca_location_type          char(20)
    )
    SERVER gsmpp_server
    OPTIONS(LOCATION 'obs://input_data1/data/',
    FORMAT 'CSV',
    ENCODING 'utf8', 
    DELIMITER E'\x08', 
    QUOTE E'\x1b',
    ENCRYPT 'on',
    ACCESS_KEY 'access_key_value_to_be_replaced',
    SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced' 
    );
    CREATE FOREIGN TABLE tpcds.customer_address_ext2
    (
    ca_address_sk             integer                       ,
    ca_address_id             char(16)                      ,
    ca_street_number          char(10)                      ,
    ca_street_name            varchar(60)                   ,
    ca_street_type            char(15)                      ,
    ca_suite_number           char(10)                      ,
    ca_city                   varchar(60)                   ,
    ca_county                 varchar(30)                   ,
    ca_state                  char(2)                       ,
    ca_zip                    char(10)                      ,
    ca_country                varchar(20)                   ,
    ca_gmt_offset             decimal(5,2)                  ,
    ca_location_type          char(20)
    )
    SERVER gsmpp_server
    OPTIONS(LOCATION 'obs://input_data2/data/',
    FORMAT 'CSV',
    ENCODING 'utf8', 
    DELIMITER E'\x08', 
    QUOTE E'\x1b',
    ENCRYPT 'on',
    ACCESS_KEY 'access_key_value_to_be_replaced',
    SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced'
    );

  3. DWS数据库上,将数据表tpcds.customer_address并发导出到外表tpcds.customer_address_ext1和tpcds.customer_address_ext2中。

    INSERT INTO tpcds.customer_address_ext1 SELECT * FROM tpcds.customer_address;
    INSERT INTO tpcds.customer_address_ext2 SELECT * FROM tpcds.customer_address;

    OBS外表在设计上禁止往非空的路径下导出文件,但是在并发场景下会出现同一路径导出文件的情况,此时会发生异常。

    异常场景:假如用户使用同一张表的数据并发导出到同一个OBS的外表,在一条SQL语句执行在OBS服务器上没有生成文件时,另一条SQL语句也执行导出,最终执行结果为两条SQL语句均执行成功,产生数据覆盖现象,建议用户在执行OBS外表导出任务时,不要往同一OBS外表并发导出。

多表并发导出操作步骤

通过创建的两个外表,将数据库中的两个表分别导出至OBS的桶中。

  1. 用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上,分别创建数据文件存放的两个桶“/input_data1”“/input_data2”,并创建每个桶下面的data目录“/input_data1/data”“/input_data2/data”。
  2. DWS数据库上,创建外表tpcds.customer_address_ext1和tpcds.customer_address_ext2分别用于OBS服务器接收导出的数据。

    规划OBS与集群处于同一区域,需要导出的表为已存在的表tpcds.customer_address1和tpcds.customer_address2。

    其中设置的 导出信息如下所示:
    • 由于OBS服务器上的数据源文件存放目录为“/input_data1/data/ ”和/input_data2/data/ ,所以设置tpcds.customer_address_ext1参数“location”为“obs://input_data1/data/ ”,设置tpcds.customer_address_ext2参数“location”为“ obs://input_data2/data/”。

    设置的数据格式信息是根据表从DWS中导出时需要的详细数据格式参数信息指定的,参数设置如下所示:

    • 数据源文件格式(format)为CSV。
    • 编码格式(encoding)为UTF-8。
    • 字段分隔符(delimiter)为0E08。
    • 引号字符(quote)为0x1b。
    • 使用加密(encrypt)为 'on'。
    • 用户获取OBS访问协议对应的AK值(access_key )。(必选)
    • 用户获取OBS访问协议对应的SK值(secret_access_key)。(必选)

      用户在创建用户是已经获取了access_key和secret_access_key的密钥,请根据实际密钥替换示例中的斜体内容。

    根据以上信息,创建的外表如下所示:

    CREATE FOREIGN TABLE tpcds.customer_address_ext1
    (
    ca_address_sk             integer               ,
    ca_address_id             char(16)              ,
    ca_street_number          char(10)                      ,
    ca_street_name            varchar(60)                   ,
    ca_street_type            char(15)                      ,
    ca_suite_number           char(10)                      ,
    ca_city                   varchar(60)                   ,
    ca_county                 varchar(30)                   ,
    ca_state                  char(2)                       ,
    ca_zip                    char(10)                      ,
    ca_country                varchar(20)                   ,
    ca_gmt_offset             decimal(5,2)                  ,
    ca_location_type          char(20)
    )
    SERVER gsmpp_server
    OPTIONS(LOCATION 'obs://input_data1/data/',
    FORMAT 'CSV',
    ENCODING 'utf8', 
    DELIMITER E'\x08', 
    QUOTE E'\x1b',
    ENCRYPT 'on',
    ACCESS_KEY 'access_key_value_to_be_replaced',
    SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced' 
    );
    CREATE FOREIGN TABLE tpcds.customer_address_ext2
    (
    ca_address_sk             integer               ,
    ca_address_id             char(16)              ,
    ca_street_number          char(10)                      ,
    ca_street_name            varchar(60)                   ,
    ca_street_type            char(15)                      ,
    ca_suite_number           char(10)                      ,
    ca_city                   varchar(60)                   ,
    ca_county                 varchar(30)                   ,
    ca_state                  char(2)                       ,
    ca_zip                    char(10)                      ,
    ca_country                varchar(20)                   ,
    ca_gmt_offset             decimal(5,2)                  ,
    ca_location_type          char(20)
    )
    SERVER gsmpp_server
    OPTIONS(LOCATION 'obs://input_data2/data/',
    FORMAT 'CSV',
    ENCODING 'utf8', 
    DELIMITER E'\x08', 
    QUOTE E'\x1b',
    ENCRYPT 'on',
    ACCESS_KEY 'access_key_value_to_be_replaced',
    SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced'
    );

  3. DWS数据库上,将数据表 tpcds.customer_address1和 tpcds.customer_address2并发导出到外表tpcds.customer_address_ext1和tpcds.customer_address_ext2中。

    INSERT INTO tpcds.customer_address_ext1 SELECT * FROM tpcds.customer_address1;
    INSERT INTO tpcds.customer_address_ext2 SELECT * FROM tpcds.customer_address2;

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区