O que é o MRS?
Big Data é um enorme desafio enfrentado pela era da Internet, à medida que o volume e os tipos de dados aumentam rapidamente. As tecnologias convencionais de processamento de dados, como armazenamento de nó único e bancos de dados relacionais, não conseguem resolver os problemas emergentes de Big Data. Nesse caso, a Apache Software Foundation (ASF) lançou uma solução de processamento de Big Data de Hadoop de código aberto. O Hadoop é uma plataforma de computação distribuída de código aberto que pode utilizar totalmente os recursos de computação e armazenamento de clusters para processar grandes quantidades de dados. Se as empresas implementarem sistemas Hadoop sozinhas, as desvantagens incluem altos custos, longo período de implementação, manutenção difícil e uso inflexível.
Para resolver esses problemas, o Serviço MapReduce (MRS) é fornecido na Huawei Cloud para você gerenciar componentes baseados em Hadoop. Com o MRS, você pode implementar um cluster do Hadoop com apenas alguns cliques. MRS fornece clusters de Big Data na nuvem para empresas. Os locatários podem controlar totalmente os clusters e executar facilmente componentes de Big Data, como Storm, Hadoop, Spark, HBase e Kafka. MRS é inteiramente compatível com APIs de código aberto, além de incorporar as vantagens da computação da Huawei Cloud e do armazenamento e da experiência na indústria de Big Data para fornecer uma plataforma de Big Data de pilha completa de alto desempenho, baixo custo, flexibilidade e facilidade de uso. Além disso, a plataforma pode ser personalizada com base nos requisitos de serviço para ajudar as empresas a construir rapidamente um sistema de processamento de dados massivo e descobrir novos pontos de valor e oportunidades de negócios, analisando e minerando grandes quantidades de dados em tempo real ou em tempo não real.
Arquitetura do produto
Lista de versões de componentes do MRS lista as versões dos componentes do MRS.
Figura 1 mostra a arquitetura lógica do MRS.
O MRS 3.x ou posterior não oferece suporte ao gerenciamento de patches no console de gerenciamento.
A arquitetura do MRS inclui fases de infraestrutura e processamento de Big Data.
- Infraestrutura
Os clusters de Big Data da MRS são construídos com base no Elastic Cloud Server (ECS) da Huawei Cloud e utilizam totalmente os recursos de alta confiabilidade e segurança da camada de virtualização.
- Uma Virtual Private Cloud (VPC) é uma rede interna virtual fornecida para cada locatário. Ela é isolada de outras redes por padrão.
- O Elastic Volume Service (EVS) fornece armazenamento altamente confiável e de alto desempenho.
- O ECS fornece VMs escaláveis e funciona com VPCs, grupos de segurança e o mecanismo de múltiplas réplicas do EVS para criar um ambiente de computação eficiente, confiável e seguro.
- Coleta de dados
A camada de coleta de dados fornece a capacidade de importar dados de várias fontes dta, como Flume (ingestão de dados), Loader (importação de dados relacionais) e Kafka (fila de mensagens altamente confiável), para clusters de Big Data do MRS. Como alternativa, você pode usar a Cloud Data Migration (CDM) para importar dados externos para clusters do MRS.
- Armazenamento de dados
Os clusters de MRS podem armazenar dados estruturados e não estruturados e oferecer suporte a vários formatos eficientes para atender aos requisitos de diferentes mecanismos de computação.
- O HDFS é um sistema de arquivos distribuído de uso geral em uma plataforma de Big Data.
- O OBS é um serviço de armazenamento de objetos que apresenta alta disponibilidade e baixo custo.
- O HBase suporta armazenamento de dados com índices e é aplicável a cenários de consulta baseados em índices de alto desempenho.
- Processamento de convergência de dados
- O MRS fornece vários mecanismos de computação principais, incluindo MapReduce (processamento em lote), Tez (modelo DAG), Spark (computação em memória), Storm (computação de fluxo) e Flink (computação de fluxo) para converter estruturas de dados e lógica em modelos de dados que atendem aos requisitos de serviço em uma variedade de cenários de aplicações de Big Data.
- Com base no modelo de dados predefinido e na análise de dados de SQL fácil de usar, os usuários podem selecionar Hive (data warehouse), SparkSQL e Presto (mecanismo de consulta interativo).
- Exibição e agendamento de dados
Exibe resultados de análise de dados e integra-se ao DataArts Studio para fornecer uma plataforma de desenvolvimento colaborativo de Big Data completa, ajudando você a concluir várias tarefas, como modelagem de dados, integração de dados, desenvolvimento de scripts, agendamento de jobs e monitoramento de O&M. e ajudá-lo a construir centros de processamento de Big Data sem esforço.
- Gerenciamento de cluster
Todos os componentes do ecossistema de Big Data baseado em Hadoop são implementados em modo distribuído, e sua implementação, gerenciamento e O&M são complexos.
O MRS fornece uma plataforma unificada de gerenciamento de O&M para gerenciamento de clusters, com suporte para implementação de clusters com um clique, seleção de várias versões, bem como dimensionamento manual e dimensionamento automático de clusters sem interrupção de serviço. Além disso, o MRS fornece gerenciamento de tarefas, gerenciamento de tags de recursos e O&M dos componentes de processamento de dados anteriores em cada camada. Ele também fornece recursos de O&M completos, abrangendo monitoramento, relatórios de alarmes, configuração e atualização de patches.
Vantagens do produto
O MRS tem uma poderosa equipe de kernel Hadoop e é implementada com base na plataforma de Big Data FusionInsight de nível empresarial da Huawei. O MRS foi implementado em dezenas de milhares de nós e pode garantir acordos de nível de serviço (SLAs) para usuários de vários níveis.
MRS possui as seguintes vantagens:
- Alto desempenho
O MRS oferece suporte à tecnologia de armazenamento CarbonData autodesenvolvido. O CarbonData é uma solução de armazenamento de Big Data de alto desempenho. Ele permite que um conjunto de dados seja aplicado a vários cenários e oferece suporte a recursos como indexação de vários níveis, codificação de dicionário, pré-agregação, particionamento dinâmico e consulta de dados em tempo quase real. Isso melhora a digitalização de I/O e o desempenho de computação e retorna resultados de análise de dezenas de bilhões de registros de dados em segundos. Além disso, o MRS suporta o agendador aprimorado autodesenvolvido Superior, que quebra o gargalo de escala de um único cluster e é capaz de agendar por mais de 10.000 nós em um cluster.
- Econômico
Com base em infraestrutura de nuvem diversificada, o MRS oferece várias opções de computação e armazenamento e separa a computação do armazenamento, oferecendo soluções econômicas de armazenamento de dados em massa. O MRS oferece suporte ao dimensionamento automático para lidar com cargas de serviço de pico e fora de pico, liberando recursos ociosos na plataforma de Big Data para os clientes. Os clusters de MRS podem ser criados e dimensionados quando você precisar deles e podem ser encerrados ou dimensionados depois de usá-los, minimizando o custo.
- Alta segurança
O MRS fornece gerenciamento de permissões multi-locatário de Big Data de nível empresarial e gerenciamento de segurança para suportar controle de acesso baseado em tabela e coluna e criptografia de dados.
- O&M fácil
O MRS fornece uma plataforma de gerenciamento de cluster de Big Data visualizada, melhorando a eficiência de O&M. O MRS suporta atualização contínua de patch e fornece informações visualizadas sobre o lançamento de patch e instalação de patch com um clique sem intervenção manual, garantindo a estabilidade a longo prazo dos clusters de usuários.
- Alta confiabilidade
A confiabilidade em larga escala comprovada e a estabilidade a longo prazo do MRS atendem aos requisitos de alta confiabilidade de nível empresarial. Além disso, o MRS suporta backup automático de dados em AZs e regiões, bem como antiafinidade automática. Ele permite que as VMs sejam distribuídas em diferentes máquinas físicas.
Usar o MRS pela primeira vez
Se você é um usuário iniciante, familiarize-se com as seguintes informações:
- Conceitos básicos
Consulte Componentes e Funções para aprender o conhecimento básico do MRS, incluindo os princípios básicos e os recursos aprimorados de cada componente do MRS, bem como os conceitos e funções exclusivos do MRS.
- Primeiros passos
Para saber como usar o MRS, consulte Primeiros passos do MapReduce Service. "Primeiros passos" fornece a orientação detalhada da operação das amostras. Você pode criar e usar clusters de MRS com base nas orientações de operação.
- Outras funções e guias de operação
Se você for um usuário de cluster do MRS e engenheiro de O&M, poderá executar operações como gerenciamento do ciclo de vida do cluster, escalabilidade e gerenciamento de jobs consultando Guia de usuário do MapReduce Service. Consulte Guia de operação de componente do MapReduce Service para saber como usar componentes em um cluster.
Se você é um desenvolvedor, pode consultar o guia de operação e exemplos de projetos no Guia de desenvolvimento do MapReduce Service do MRS para desenvolver, executar e comissionar suas próprias aplicações. Você também pode chamar APIs para gerenciar clusters do MRS e executar jobs. Para obter detalhes, consulte Referência de API do MapReduce Service.