Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Central de ajuda> GaussDB(DWS)> Melhores práticas> Importação e exportação> Tutorial: usar o GDS para importar dados de um servidor remoto
Atualizado em 2024-05-09 GMT+08:00

Tutorial: usar o GDS para importar dados de um servidor remoto

Visão geral

Esta prática demonstra como usar General Data Service (GDS) para importar dados de um servidor remoto para GaussDB(DWS).

GaussDB(DWS) permite importar dados em formato TXT, CSV ou FIXED.

Neste tutorial, você irá:

  • Gerar os arquivos de dados de origem no formato CSV a serem usados neste tutorial.
  • Carregar os arquivos de dados de origem para um servidor de dados.
  • Criar tabelas estrangeiras usadas para importar dados de um servidor de dados para GaussDB(DWS) por meio do GDS.
  • Iniciar GaussDB(DWS), crie uma tabela e importe dados para a tabela.
  • Analisar os erros de importação com base nas informações da tabela de erros e corrija esses erros.

Preparar um ECS como servidor do GDS

Para obter detalhes sobre como comprar um ECS, consulte "Compra de um ECS" em Primeiros passos do Elastic Cloud Server. Após a compra, faça logon no ECS consultando Efetuar logon em um ECS de Linux.

  • O sistema operacional do ECS deve ser suportado pelo pacote do GDS.
  • O ECS e o DWS estão na mesma região, VPC e sub-rede.
  • A regra do grupo de segurança do ECS deve permitir o acesso ao cluster do DWS, ou seja, a regra de entrada do grupo de segurança é a seguinte:
    • Protocolo: TCP
    • Porta: 5000
    • Origem: selecione IP Address e digite o endereço IP do cluster GaussDB(DWS), por exemplo, 192.168.0.10/32.
  • Se o firewall estiver habilitado no ECS, verifique se a porta de escuta do GDS está ativada no firewall:
    1
    iptables  -I INPUT -p tcp -m tcp --dport <gds_port> -j ACCEPT
    

Baixar o pacote do GDS

  1. Efetue logon no console do GaussDB(DWS).
  2. Na árvore de navegação à esquerda, clique em Connections.
  3. Selecione o cliente do GDS da versão correspondente na lista suspensa de CLI Client.

    Selecione uma versão com base na versão do cluster e no SO em que o cliente está instalado.

  4. Clique em Download.

Preparar arquivos de dados de origem

  • Arquivo de dados product_info0.csv
    1
    2
    3
    4
    5
    100,XHDK-A,2017-09-01,A,2017 Shirt Women,red,M,328,2017-09-04,715,good!
    205,KDKE-B,2017-09-01,A,2017 T-shirt Women,pink,L,584,2017-09-05,40,very good!
    300,JODL-X,2017-09-01,A,2017 T-shirt men,red,XL,15,2017-09-03,502,Bad.
    310,QQPX-R,2017-09-02,B,2017 jacket women,red,L,411,2017-09-05,436,It's nice.
    150,ABEF-C,2017-09-03,B,2017 Jeans Women,blue,M,123,2017-09-06,120,good.
    
  • Arquivo de dados product_info1.csv
    1
    2
    3
    4
    5
    200,BCQP-E,2017-09-04,B,2017 casual pants men,black,L,997,2017-09-10,301,good quality.
    250,EABE-D,2017-09-10,A,2017 dress women,black,S,841,2017-09-15,299,This dress fits well.
    108,CDXK-F,2017-09-11,A,2017 dress women,red,M,85,2017-09-14,22,It's really amazing to buy.
    450,MMCE-H,2017-09-11,A,2017 jacket women,white,M,114,2017-09-14,22,very good.
    260,OCDA-G,2017-09-12,B,2017 woolen coat women,red,L,2004,2017-09-15,826,Very comfortable.
    
  • Arquivo de dados product_info2.csv
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    980,"ZKDS-J",2017-09-13,"B","2017 Women's Cotton Clothing","red","M",112,,,
    98,"FKQB-I",2017-09-15,"B","2017 new shoes men","red","M",4345,2017-09-18,5473
    50,"DMQY-K",2017-09-21,"A","2017 pants men","red","37",28,2017-09-25,58,"good","good","good"
    80,"GKLW-l",2017-09-22,"A","2017 Jeans Men","red","39",58,2017-09-25,72,"Very comfortable."
    30,"HWEC-L",2017-09-23,"A","2017 shoes women","red","M",403,2017-09-26,607,"good!"
    40,"IQPD-M",2017-09-24,"B","2017 new pants Women","red","M",35,2017-09-27,52,"very good."
    50,"LPEC-N",2017-09-25,"B","2017 dress Women","red","M",29,2017-09-28,47,"not good at all."
    60,"NQAB-O",2017-09-26,"B","2017 jacket women","red","S",69,2017-09-29,70,"It's beautiful."
    70,"HWNB-P",2017-09-27,"B","2017 jacket women","red","L",30,2017-09-30,55,"I like it so much"
    80,"JKHU-Q",2017-09-29,"C","2017 T-shirt","red","M",90,2017-10-02,82,"very good."
    
  1. Crie um arquivo de texto, abra-o usando uma ferramenta de edição local (por exemplo, Visual Studio Code) e copie os dados de exemplo para o arquivo de texto.
  2. Escolha Format > Encode in UTF-8 without BOM.
  3. Escolha File > Save as.
  4. Na caixa de diálogo exibida, insira o nome do arquivo, defina a extensão do nome de arquivo como.csv e clique em Save.
  5. Efetue logon no servidor do GDS como usuário root.
  6. Crie o diretório /input_data para armazenar o arquivo de dados.

    1
    mkdir -p /input_data
    

  7. Use MobaXterm para fazer upload dos arquivos de dados de origem para o diretório criado.

Instalar e iniciar o GDS

  1. Faça logon no servidor do GDS como usuário root e crie o diretório /opt/bin/dws para armazenar o pacote do GDS.

    1
    mkdir -p /opt/bin/dws
    

  2. Carregue o pacote do GDS para o diretório criado.

    Por exemplo, carregue o pacote dws_client_8.1.x_redhat_x64.zip para o diretório criado.

  3. Vá para o diretório e descompactar o pacote.

    1
    2
    cd /opt/bin/dws
    unzip dws_client_8.1.x_redhat_x64.zip
    

  4. Crie um usuário (gds_user) e o grupo de usuários (gdsgrp) ao qual o usuário pertence. Este usuário é usado para iniciar o GDS e deve ter permissão para ler o diretório do arquivo de dados de origem.

    1
    2
    groupadd gdsgrp
    useradd -g gdsgrp gds_user
    

  5. Altere o proprietário do pacote do GDS e o diretório do arquivo de dados de origem para gds_user e altere o grupo de usuários para gdsgrp.

    1
    2
    chown -R gds_user:gdsgrp /opt/bin/dws/gds
    chown -R gds_user:gdsgrp /input_data
    

  6. Mude para o usuário gds_user.

    1
    su - gds_user
    

    Se a versão atual do cluster for 8.0.x ou anterior, pule 7 e vá para 8.

    Se a versão atual do cluster for 8.1.x ou posterior, vá para a próxima etapa.

  7. Execute o script do qual o ambiente depende (aplicável apenas a 8.1.x).

    1
    2
    cd /opt/bin/dws/gds/bin
    source gds_env
    

  8. Inicie o GDS.

    1
    /opt/bin/dws/gds/bin/gds -d /input_data/ -p 192.168.0.90:5000 -H 10.10.0.1/24 -l /opt/bin/dws/gds/gds_log.txt -D
    

    Substitua as peças em itálico conforme necessário.

    • -d dir: diretório para armazenar arquivos de dados que contêm dados a serem importados. Esta prática usa /input_data/ como um exemplo.
    • -p ip:port: endereço IP de escuta e porta para GDS. O valor padrão é 127.0.0.1. Substitua-o pelo endereço IP de uma rede 10GE com a qual possa se comunicar GaussDB(DWS). O número da porta varia de 1024 a 65535. O valor padrão é 8098. Esta prática usa 192.168.0.90:5000 como um exemplo.
    • -H address_string: hosts que têm permissão para se conectar e usar o GDS. O valor deve estar no formato CIDR. Defina este parâmetro para permitir que um cluster de GaussDB(DWS) acesse o GDS para importação de dados. Certifique-se de que o segmento de rede cubra todos os hosts em um cluster de GaussDB(DWS).
    • -l log_file: diretório de log do GDS e nome do arquivo de log. Esta prática usa /opt/bin/dws/gds/gds_log.txt como um exemplo.
    • -D: GDS em modo daemon. Este parâmetro é usado apenas no Linux.

Criar uma tabela estrangeira

  1. Use um cliente de SQL para se conectar ao banco de dados de GaussDB(DWS).
  2. Crie a seguinte tabela estrangeira:

    LOCATION: substitua-o pelo endereço do GDS real e número da porta.

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    DROP FOREIGN TABLE IF EXISTS product_info_ext;
    CREATE FOREIGN TABLE product_info_ext
    (
        product_price                integer        not null,
        product_id                   char(30)       not null,
        product_time                 date           ,
        product_level                char(10)       ,
        product_name                 varchar(200)   ,
        product_type1                varchar(20)    ,
        product_type2                char(10)       ,
        product_monthly_sales_cnt    integer        ,
        product_comment_time         date           ,
        product_comment_num          integer        ,
        product_comment_content      varchar(200)              
    ) 
    SERVER gsmpp_server 
    OPTIONS(
    LOCATION 'gsfs://192.168.0.90:5000/*',
    FORMAT 'CSV' ,
    DELIMITER ',',
    ENCODING 'utf8',
    HEADER 'false',
    FILL_MISSING_FIELDS 'true',
    IGNORE_EXTRA_DATA 'true'
    )
    READ ONLY
    LOG INTO product_info_err 
    PER NODE REJECT LIMIT 'unlimited';
    

    Se as seguintes informações forem exibidas, a tabela estrangeira foi criada:

    1
    CREATE FOREIGN TABLE
    

Importar dados

  1. Execute as instruções a seguir para criar a tabela product_info no GaussDB(DWS) para armazenar os dados importados:

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    DROP TABLE IF EXISTS product_info;
    CREATE TABLE product_info
    (
        product_price                integer        not null,
        product_id                   char(30)       not null,
        product_time                 date           ,
        product_level                char(10)       ,
        product_name                 varchar(200)   ,
        product_type1                varchar(20)    ,
        product_type2                char(10)       ,
        product_monthly_sales_cnt    integer        ,
        product_comment_time         date           ,
        product_comment_num          integer        ,
        product_comment_content      varchar(200)                   
    ) 
    WITH (
    orientation = column,
    compression=middle
    ) 
    DISTRIBUTE BY hash (product_id);
    

  2. Importe dados de arquivos de dados de origem para a tabela product_info por meio da tabela estrangeira product_info_ext.

    1
    INSERT INTO product_info SELECT * FROM product_info_ext ;
    
    Se as seguintes informações forem exibidas, os dados foram importados:
    1
    INSERT 0 20
    

  3. Execute a instrução SELECT para exibir os dados importados para GaussDB(DWS).

    1
    SELECT count(*) FROM product_info;
    

    Se as seguintes informações forem exibidas, os dados foram importados:

    1
    2
    3
    4
    count 
    -------
         20
    (1 row)
    

  1. Execute VACUUM FULL na tabela product_info.

    1
    VACUUM FULL product_info
    

  2. Atualize as estatísticas da tabela product_info.

    1
    ANALYZE product_info;
    

Interromper o GDS

  1. Faça logon no servidor de dados em que o GDS está instalado como usuário gds_user.
  2. Execute as seguintes operações para parar o GDS:

    1. Consulte o ID do processo do GDS. O ID do processo do GDS é 128954.
      ps -ef|grep gds
      gds_user 128954      1  0 15:03 ?        00:00:00 gds -d /input_data/ -p 192.168.0.90:5000 -l /opt/bin/gds/gds_log.txt  -D
      gds_user 129003 118723  0 15:04 pts/0    00:00:00 grep gds
    2. Execute o comando kill para interromper o GDS. 128954 indica o ID do processo do GDS.
      kill -9 128954

Excluir recursos

  1. Execute o seguinte comando para excluir a tabela de destino product_info:

    1
    DROP TABLE product_info;
    

    Se as seguintes informações forem exibidas, a tabela foi excluída:

    1
    DROP TABLE
    

  2. Execute o seguinte comando para excluir a tabela estrangeira product_info_ext:

    1
    DROP FOREIGN TABLE product_info_ext;
    

    Se as seguintes informações forem exibidas, a tabela foi excluída:

    1
    DROP FOREIGN TABLE