Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Central de ajuda> GaussDB(DWS)> Melhores práticas> Importação e exportação> Tutorial: importar dados do OBS para um cluster
Atualizado em 2024-05-09 GMT+08:00

Tutorial: importar dados do OBS para um cluster

Visão geral

Esta prática demonstra como fazer upload de dados de amostra para o OBS e importar dados do OBS para a tabela de destino no GaussDB(DWS), ajudando você a aprender rapidamente como importar dados do OBS para um cluster do GaussDB(DWS).

Você pode importar dados no formato TXT, CSV, ORC, PARQUET, CARBONDATA ou JSON do OBS para um cluster do GaussDB(DWS) para consulta.

Este tutorial usa o formato CSV como um exemplo para descrever como executar as seguintes operações:

  • Gere arquivos de dados em formato CSV.
  • Crie um bucket do OBS na mesma região que o cluster do GaussDB(DWS) e carregue os arquivos de dados para o bucket do OBS.
  • Crie uma tabela estrangeira para importar dados do bucket do OBS para clusters do GaussDB(DWS).
  • Inicie o GaussDB(DWS), crie uma tabela e importe dados do OBS para a tabela.
  • Analise os erros de importação com base nas informações da tabela de erros e corrija esses erros.

Tempo estimado: 30 minutos

Preparar arquivos de dados de origem

  • Arquivo de dados product_info0.csv
    1
    2
    3
    4
    5
    100,XHDK-A,2017-09-01,A,2017 Shirt Women,red,M,328,2017-09-04,715,good!
    205,KDKE-B,2017-09-01,A,2017 T-shirt Women,pink,L,584,2017-09-05,40,very good!
    300,JODL-X,2017-09-01,A,2017 T-shirt men,red,XL,15,2017-09-03,502,Bad.
    310,QQPX-R,2017-09-02,B,2017 jacket women,red,L,411,2017-09-05,436,It's nice.
    150,ABEF-C,2017-09-03,B,2017 Jeans Women,blue,M,123,2017-09-06,120,good.
    
  • Arquivo de dados product_info1.csv
    1
    2
    3
    4
    5
    200,BCQP-E,2017-09-04,B,2017 casual pants men,black,L,997,2017-09-10,301,good quality.
    250,EABE-D,2017-09-10,A,2017 dress women,black,S,841,2017-09-15,299,This dress fits well.
    108,CDXK-F,2017-09-11,A,2017 dress women,red,M,85,2017-09-14,22,It's really amazing to buy.
    450,MMCE-H,2017-09-11,A,2017 jacket women,white,M,114,2017-09-14,22,very good.
    260,OCDA-G,2017-09-12,B,2017 woolen coat women,red,L,2004,2017-09-15,826,Very comfortable.
    
  • Arquivo de dados product_info2.csv
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    980,"ZKDS-J",2017-09-13,"B","2017 Women's Cotton Clothing","red","M",112,,,
    98,"FKQB-I",2017-09-15,"B","2017 new shoes men","red","M",4345,2017-09-18,5473
    50,"DMQY-K",2017-09-21,"A","2017 pants men","red","37",28,2017-09-25,58,"good","good","good"
    80,"GKLW-l",2017-09-22,"A","2017 Jeans Men","red","39",58,2017-09-25,72,"Very comfortable."
    30,"HWEC-L",2017-09-23,"A","2017 shoes women","red","M",403,2017-09-26,607,"good!"
    40,"IQPD-M",2017-09-24,"B","2017 new pants Women","red","M",35,2017-09-27,52,"very good."
    50,"LPEC-N",2017-09-25,"B","2017 dress Women","red","M",29,2017-09-28,47,"not good at all."
    60,"NQAB-O",2017-09-26,"B","2017 jacket women","red","S",69,2017-09-29,70,"It's beautiful."
    70,"HWNB-P",2017-09-27,"B","2017 jacket women","red","L",30,2017-09-30,55,"I like it so much"
    80,"JKHU-Q",2017-09-29,"C","2017 T-shirt","red","M",90,2017-10-02,82,"very good."
    
  1. Crie um arquivo de texto, abra-o usando uma ferramenta de edição local (por exemplo, Visual Studio Code) e copie os dados de exemplo para o arquivo de texto.
  2. Escolha Format > Encode in UTF-8 without BOM.
  3. Escolha File > Save as.
  4. Na caixa de diálogo exibida, insira o nome do arquivo, defina a extensão do nome de arquivo como .csv e clique em Save.

Carregar dados para o OBS

  1. Armazene os três arquivos de dados de origem CSV no intervalo do OBS.

    1. Faça logon no console de gerenciamento do OBS.

      Clique em Service List e escolha Object Storage Service para abrir o console de gerenciamento do OBS.

    2. Crie um bucket.

      Para obter detalhes sobre como criar um bucket do OBS, consulte Criação de um bucket em Primeiros passos no Object Storage Service.

      Por exemplo, crie dois buckets denominados mybucket e mybucket02.

      Certifique-se de que os dois buckets estejam na mesma região que o cluster do GaussDB(DWS). Esta prática utiliza a região CN-Hong Kong como exemplo.

    3. Crie uma pasta.

      Para obter detalhes, consulte Creating a Folder no Guia de operação de console do Object Storage Service .

      Exemplos:

      • Crie uma pasta chamada input_data no bucket do OBS mybucket.
      • Crie uma pasta chamada input_data no bucket do OBS mybucket02.
    4. Carregue os arquivos.

      Para obter detalhes, consulte Carregamento de um objeto no Guia de operação de console do Object Storage Service.

      Exemplos:

      • Carregue os seguintes arquivos de dados para a pasta input_data no bucket do OBS mybucket:
        1
        2
        product_info0.csv
        product_info1.csv
        
      • Carregue o seguinte arquivo de dados para a input_data no bucket do OBS mybucket02:
        1
        product_info2.csv
        

  2. Conceda a permissão de leitura do bucket do OBS para o usuário que importará dados.

    Ao importar dados do OBS para um cluster, o usuário deve ter a permissão de leitura para os buckets do OBS onde os arquivos de dados de origem estão localizados. Você pode configurar a ACL para os buckets do OBS para conceder a permissão de leitura a um usuário específico.

    Para obter detalhes, consulte Configuração de uma ACL de bucket no Guia de operação de console do Object Storage Service.

Criar uma tabela estrangeira

  1. Conecte-se ao banco de dados do GaussDB(DWS).
  2. Crie uma tabela estrangeira.

    • ACCESS_KEY e SECRET_ACCESS_KEY

      Esses parâmetros especificam o AK e a SK usados para acessar o OBS por um usuário. Substitua-os pelos AK e SK reais.

      Para obter uma chave de acesso, faça logon no console de gerenciamento, mova o cursor para o nome de usuário no canto superior direito, clique em My Credential e clique em Access Keys no painel de navegação à esquerda. Na página Access Keys, você pode exibir os IDs de chave de acesso (AKs) existentes. Para obter o AK e a SK, clique em Create Access Key para criar e baixar uma chave de acesso.

    • // AK e SK codificados rigidamente ou em texto não criptografado são arriscados. Para fins de segurança, criptografe seu AK e SK e armazene-os no arquivo de configuração ou nas variáveis de ambiente.
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    DROP FOREIGN TABLE IF EXISTS product_info_ext;
    CREATE FOREIGN TABLE product_info_ext
    (
        product_price                integer        not null,
        product_id                   char(30)       not null,
        product_time                 date           ,
        product_level                char(10)       ,
        product_name                 varchar(200)   ,
        product_type1                varchar(20)    ,
        product_type2                char(10)       ,
        product_monthly_sales_cnt    integer        ,
        product_comment_time         date           ,
        product_comment_num          integer        ,
        product_comment_content      varchar(200)                   
    ) 
    SERVER gsmpp_server 
    OPTIONS(
    LOCATION 'obs://mybucket/input_data/product_info | obs://mybucket02/input_data/product_info',
    FORMAT 'CSV' ,
    DELIMITER ',',
    ENCODING 'utf8',
    HEADER 'false',
    ACCESS_KEY 'access_key_value_to_be_replaced',
    SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced',
    FILL_MISSING_FIELDS 'true',
    IGNORE_EXTRA_DATA 'true'
    )
    READ ONLY 
    LOG INTO product_info_err 
    PER NODE REJECT LIMIT 'unlimited';
    
    Se as seguintes informações forem exibidas, a tabela estrangeira foi criada:
    1
    CREATE FOREIGN TABLE
    

Importar dados

  1. Crie uma tabela denominada product_info no banco de dados do GaussDB(DWS) para armazenar os dados importados do OBS.

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    DROP TABLE IF EXISTS product_info;
    CREATE TABLE product_info
    (
        product_price                integer        not null,
        product_id                   char(30)       not null,
        product_time                 date           ,
        product_level                char(10)       ,
        product_name                 varchar(200)   ,
        product_type1                varchar(20)    ,
        product_type2                char(10)       ,
        product_monthly_sales_cnt    integer        ,
        product_comment_time         date           ,
        product_comment_num          integer        ,
        product_comment_content      varchar(200)                   
    ) 
    WITH (
    orientation = column,
    compression=middle
    ) 
    DISTRIBUTE BY hash (product_id);
    

  2. Execute INSERT para importar dados do OBS para a tabela de destino product_info por meio da tabela estrangeira product_info_ext.

    1
    INSERT INTO product_info SELECT * FROM product_info_ext;
    

  3. Execute SELECT para visualizar os dados importados do OBS para GaussDB(DWS).

    1
    SELECT * FROM product_info;
    

    As seguintes informações são exibidas no final do resultado da consulta:

    (20 rows)

  1. Execute VACUUM FULL na tabela product_info.

    1
    VACUUM FULL product_info;
    

  2. Atualize as estatísticas da tabela product_info.

    1
    ANALYZE product_info;
    

Excluir recursos

  1. Se você tiver realizado consultas após a importação de dados, execute a instrução a seguir para excluir a tabela de destino:

    1
    DROP TABLE product_info;
    

    Se a seguinte saída for exibida, a tabela estrangeira foi excluída:

    DROP TABLE

  2. Execute a instrução a seguir para excluir a tabela estrangeira:

    1
    DROP FOREIGN TABLE product_info_ext;
    

    Se a seguinte saída for exibida, a tabela estrangeira foi excluída:

    DROP FOREIGN TABLE