Criação de uma tabela de séries temporais
Cenários
Tabelas de séries temporais herdam a sintaxe de tabelas comuns de coluna-armazenamento e linha-armazenamento, facilitando a compreensão e uso.
As tabelas de séries temporais podem ser gerenciadas por meio do ciclo de vida dos dados. Os dados aumentam explosivamente todos os dias com muitas dimensões. Novas partições precisam ser adicionadas à tabela periodicamente para armazenar novos dados. Os dados gerados há muito tempo geralmente são de baixo valor e não são acessados com frequência. Portanto, pode ser excluído periodicamente. Portanto, as tabelas de séries temporais devem ter a capacidade de adicionar e excluir periodicamente partições.
Esta prática demonstra como criar rapidamente suas tabelas de séries temporais e gerenciá-las por partições. Especificar um tipo adequado para uma coluna ajuda a melhorar o desempenho de operações como importação e consulta, tornando seu serviço mais eficiente. A figura a seguir usa a amostragem de dados do conjunto de gerador como exemplo.
- As colunas que descrevem atributos do gerador (informações do gerador, fabricante, modelo, localização e ID) são definidas como colunas de tag. Durante a criação da tabela, elas são especificadas como TSTag
- Os valores das métricas de dados de amostragem (tensão, potência, frequência e ângulo de fase atual) variam com o tempo. Durante a criação da tabela, eles são especificados como TSField.
- A última coluna é especificada como a coluna de tempo, que armazena as informações de tempo correspondentes aos dados nas colunas de campo. Durante a criação da tabela, ela é especificada como TSTime.
Procedimento
Essa prática leva cerca de 30 minutos. O processo básico é o seguinte:
Criar um ECS
Para obter detalhes, consulte Compra de um ECS. Após a compra de um ECS, faça logon no ECS consultando Efetuar logon em um ECS de Linux.
Ao criar um ECS, certifique-se de que o ECS esteja na mesma região, AZ e sub-rede da VPC que o armazém de dados de fluxo. Selecione o SO usado pelo cliente gsql (o CentOS 7.6 é usado como um exemplo) como o SO do ECS e selecione usar senhas para fazer logon.
Criar um armazém de dados de fluxo
- Efetue logon no console de gerenciamento da Huawei Cloud.
- Escolha Service List > Analytics > Data Warehouse Service. Na página exibida, clique em Create Cluster no canto superior direito.
- Configure parâmetros de acordo com Tabela 1.
Tabela 1 Configuração de software Parâmetro
Configuração
Region
Selecione CN-Hong Kong.
NOTA:- CN-Hong Kong é usada como exemplo. Você pode selecionar outras regiões, conforme necessário. Certifique-se de que todas as operações sejam realizadas na mesma região.
- Verifique se o GaussDB(DWS) e o ECS estão na mesma região, AZ e sub-rede da VPC.
AZ
AZ2
Product
Stream data warehouse
Compute Resource
ECS
Storage Type
Cloud SSD
CPU Architecture
x86
Node Flavor
dwsx2.rt.2xlarge.m6 (8 vCPU | 64GB | 100-4,000 GB SSD)
NOTA:Se esse flavor estiver esgotado, selecione outras AZs ou flavors.
Hot Storage
200 GB/node
Nodes
3
Cluster Name
dws-demo01
Administrator Account
dbadmin
Administrator Password
User-defined
Confirm Password
Digite a senha de administrador definida pelo usuário novamente.
Database Port
8000
VPC
vpc-default
Subnet
subnet-default(192.168.0.0/24)
AVISO:Verifique se o cluster e o ECS estão na mesma sub-rede da VPC.
Security Group
Automatic creation
EIP
Buy now
Enterprise Project
default
Advanced settings
Default
- Confirme as informações, clique em Next e, em seguida, clique em Submit.
- Aguarde cerca de 10 minutos. Depois que o cluster for criado, clique no nome do cluster para ir para a página Basic Information. Escolha Network, clique em um nome de grupo de segurança e verifique se uma regra de grupo de segurança foi adicionada. Neste exemplo, o endereço IP do cliente é 192.168.0.x (o endereço IP da rede privada do ECS onde o gsql está localizado é 192.168.0.90). Portanto, você precisa adicionar uma regra de grupo de segurança na qual o endereço IP é 192.168.0.0/24 e o número da porta é 8000.
- Retorne à guia Basic Information do cluster e registre o valor de Private Network IP Address.
Usar o cliente de CLI gsql para conectar-se a um cluster
- Faça logon remotamente no servidor Linux onde o gsql deve ser instalado como usuário root e execute o seguinte comando na janela de comando do Linux para fazer o download do cliente gsql:
1
wget https://obs.ap-southeast-1.myhuaweicloud.com/dws/download/dws_client_8.1.x_redhat_x64.zip --no-check-certificate
- Descompacte o cliente.
1
cd <Path_for_storing_the_client> unzip dws_client_8.1.x_redhat_x64.zip
Onde,
- <Path_for_storing_the_client>: Substitua-o pelo caminho real.
- dws_client_8.1.x_redhat_x64.zip: Este é o nome do pacote de ferramentas cliente do RedHat x64. Substitua-o pelo nome real.
- Configure o cliente de GaussDB(DWS).
1
source gsql_env.sh
Se as seguintes informações forem exibidas, o cliente gsql será configurado com êxito:
1
All things done.
- Use o cliente gsql para conectar-se a um banco de dados do GaussDB(DWS) (usando a senha você definiu ao criar o cluster).
1
gsql -d gaussdb -p 8000 -h 192.168.0.86 -U dbadmin -W password -r
Se as informações a seguir forem exibidas, a conexão foi bem-sucedida.
1
gaussdb=>
Criação de uma tabela de séries temporais
- A seguir, descreve-se como criar uma tabela de séries temporais GENERATOR para armazenar os dados de amostra de conjunto de gerador.
1 2 3 4 5 6 7 8 9 10 11
CREATE TABLE IF NOT EXISTS GENERATOR( genset text TSTag, manufacturer text TSTag, model text TSTag, location text TSTag, ID bigint TSTag, voltage numeric TSField, power bigint TSField, frequency numeric TSField, angle numeric TSField, time timestamptz TSTime) with (orientation=TIMESERIES, period='1 hour', ttl='1 month') distribute by hash(model);
- Consultr a hora atual.
1 2 3 4 5
select now(); now ------------------------------- 2022-05-25 15:28:38.520757+08 (1 row)
- Consulte a partição padrão e o limite de partição.
1 2 3 4 5 6 7 8 9
SELECT relname, boundaries FROM pg_partition where parentid=(SELECT oid FROM pg_class where relname='generator') order by boundaries ; relname | boundaries ----------------+---------------------------- default_part_1 | {"2022-05-25 16:00:00+08"} default_part_2 | {"2022-05-25 17:00:00+08"} p1653505200 | {"2022-05-25 18:00:00+08"} p1653541200 | {"2022-05-25 19:00:00+08"} p1653577200 | {"2022-05-25 20:00:00+08"} ......
As colunas TSTAG suportam os tipos text, char, bool, int e big int.
A coluna TSTime suporta o carimbo de data/hora com fuso horário e carimbo de data/hora sem tipos de fuso horário. Também suporta o tipo de data em bancos de dados compatíveis com a sintaxe Oracle. Se operações relacionadas ao fuso horário estiverem envolvidas, selecione um tipo de horário com fuso horário.
Os tipos de dados suportados pelas colunas de TSField são os mesmos suportados pelas tabelas de armazenamento de colunas.
- Ao escrever instruções de criação de tabela, você pode otimizar a sequência de colunas de tags. Colunas mais exclusivas (valores mais distintos) são escritas na frente para melhorar o desempenho em cenários de sequência de tempo.
- Ao criar uma tabela de séries temporais, defina o parâmetro em nível de tabela orientation para timeseries.
- Não é necessário especificar manualmente DISTRIBUTE BY e PARTITION BY para uma tabela de séries temporais. Por padrão, os dados são distribuídos com base em todas as colunas de tags e a chave de partição é a coluna TStime.
- Na sintaxe create table like, os nomes das colunas e os tipos kv_type são herdados automaticamente da tabela de origem. Se a tabela de origem for uma tabela de série não temporal e a nova tabela for uma tabela de série temporal, o tipo kv_type da coluna correspondente não poderá ser determinado. Como resultado, a criação falha.
- Um e somente um atributo TSTIME deve ser especificado. Colunas do tipo TSTIME não podem ser excluídas. Deve haver pelo menos uma coluna TSTag e TSField. Caso contrário, um erro será reportado durante a criação da tabela.
As tabelas de séries temporais usam a coluna TSTIME como chave de partição e têm a função de gerenciamento automático de partição. Tabelas de partição com a função de gerenciamento automático de partição ajudam os usuários a reduzir significativamente o tempo de O&M. Na instrução de criação de tabela anterior, você pode ver nos parâmetros de nível de tabela que dois parâmetros period e ttl são especificados para a tabela de séries temporais.
- period: intervalo para criar partições automaticamente. O valor padrão é 1 dia. A faixa de valor é de 1 hora a 100 anos. Por padrão, uma tarefa de partição de incremento automático é criada para a tabela de séries temporais. A tarefa de partição de incremento automático cria partições dinamicamente para garantir que partições suficientes estejam disponíveis para importar dados.
- ttl: tempo para eliminar automaticamente as partições. A faixa de valor é de 1 hora a 100 anos. Por padrão, nenhuma tarefa de eliminação de partição é criada. Você precisa especificar manualmente a tarefa de eliminação de partição ao criar uma tabela ou usar a sintaxe ALTER TABLE para definir a tarefa de eliminação de partição após criar uma tabela. A política de eliminação de partição baseia-se na condição de nowtime - partition boundary > ttl. As partições que atendem a essa condição serão eliminadas. Esse recurso ajuda os usuários a excluir dados obsoletos periodicamente.
Para limites de partição
- Se a unidade period for hora, o valor do limite inicial será a hora seguinte e o intervalo de partição será o valor do period.
- Se a unidade period for dia, o valor do limite inicial será 00:00 do próximo dia e o intervalo de partição será o valor do period.
- Se a unidade period for mês, o valor do limite inicial será 00:00 do próximo mês e o intervalo de partição será o valor do period.
- Se a unidade period for ano, o valor do limite inicial será 00:00 do ano seguinte e o intervalo de partição será o valor do period.
Criar uma tabela de séries temporais (definindo limites de partição manualmente)
- Especifique manualmente o valor do limite inicial. Por exemplo, crie a tabela de séries temporais GENERATOR1 com o limite inicial padrão da partição P1 como 2022-05-30 16:32:45 e a partição P2 como 2022-05-31 16:56:12.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
CREATE TABLE IF NOT EXISTS GENERATOR1( genset text TSTag, manufacturer text TSTag, model text TSTag, location text TSTag, ID bigint TSTag, voltage numeric TSField, power bigint TSField, frequency numeric TSField, angle numeric TSField, time timestamptz TSTime) with (orientation=TIMESERIES, period='1 day') distribute by hash(model) partition by range(time) ( PARTITION P1 VALUES LESS THAN('2022-05-30 16:32:45'), PARTITION P2 VALUES LESS THAN('2022-05-31 16:56:12') );
- Consulte a hora atual:
1 2 3 4
select now(); now ------------------------------- 2022-05-31 20:36:09.700096+08(1 row)
- Execute o seguinte comando para consultar partições e limites de partição:
1 2 3 4 5 6 7 8
SELECT relname, boundaries FROM pg_partition where parentid=(SELECT oid FROM pg_class where relname='generator1') order by boundaries ; relname | boundaries -------------+---------------------------- p1 | {"2022-05-30 16:32:45+08"} p2 | {"2022-05-31 16:56:12+08"} p1654073772 | {"2022-06-01 16:56:12+08"} p1654160172 | {"2022-06-02 16:56:12+08"} ......