Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

Prácticas

Después de desplegar un clúster MRS, puede probar algunas prácticas proporcionadas por MRS para satisfacer sus requisitos de servicio.

Tabla 1 Prácticas recomendadas

Práctica

Descripción

Análisis de datos

Uso de Spark2x para analizar el comportamiento de conducción de los conductores de IoV

Esta práctica describe cómo usar Spark para analizar el comportamiento de conducción. Puede familiarizarse con las funciones básicas de MRS utilizando el componente Spark2x para analizar y recopilar estadísticas sobre el comportamiento de conducción, obtener el resultado del análisis y recopilar estadísticas sobre el número de violaciones, tales como aceleración y desaceleración repentinas, inercia, exceso de velocidad, y la fatiga de conducir en un período determinado.

Uso de Hive para cargar datos HDFS y analizar las puntuaciones del libro

Esta práctica describe cómo usar Hive para importar y analizar datos sin procesar y cómo crear análisis de big data fuera de línea elásticos y asequibles. En esta práctica, la lectura de comentarios del fondo de un sitio web de un libro se utiliza como datos brutos. Después de importar los datos a una tabla Hive, puede ejecutar comandos SQL para consultar los libros más vendidos más populares.

Uso de Hive para cargar datos OBS y analizar información de empleados empresariales

Esta práctica describe cómo usar Hive para importar y analizar datos sin procesar de OBS y cómo crear análisis de big data elásticos y asequibles basados en recursos de procesamiento y almacenamiento desacoplados. Esta práctica describe cómo desarrollar una aplicación de análisis de datos de Hive y cómo ejecutar sentencias HQL para acceder a los datos de Hive almacenados en OBS después de conectarse a Hive a través del cliente. Por ejemplo, gestionar y consultar la información de los empleados de la empresa.

Uso de trabajos de Flink para procesar datos de OBS

Esta práctica describe cómo utilizar el programa WordCount Flink integrado de un clúster MRS para analizar los datos de origen almacenados en el sistema de archivos OBS y calcular el número de ocurrencias de palabras especificadas en el origen de datos.

MRS admite almacenamiento y cómputo desacoplados en escenarios en los que se requiere una gran capacidad de almacenamiento y los recursos de cómputo deben escalarse según la demanda. Esto le permite almacenar sus datos en OBS y usar un clúster MRS solo para computación de datos.

Migración de datos

Solución de migración de datos

Esta práctica describe cómo migrar datos HDFS, HBase y Hive a un clúster MRS en diferentes escenarios.

Intentará prepararse para la migración de datos, exportar metadatos, copiar datos y restaurar datos.

Migración de datos de Hadoop a MRS

En esta práctica, CDM se utiliza para migrar datos (decenas de terabytes o menos) de clústeres Hadoop a MRS.

Migración de datos de HBase a MRS

En esta práctica, CDM se utiliza para migrar datos (decenas de terabytes o menos) de clústeres HBase a MRS. HBase almacena datos en HDFS, incluidos los archivos HFile y WAL. El elemento de configuración hbase.rootdir especifica la ruta de acceso de HDFS. De forma predeterminada, los datos se almacenan en la carpeta /hbase en MRS.

Algunos mecanismos y comandos de herramientas de HBase también se pueden utilizar para migrar datos. Por ejemplo, puede migrar datos exportando instantáneas, exportando e importando datos y CopyTable.

Migración de datos de Hive a MRS

En esta práctica, CDM se utiliza para migrar datos (decenas de terabytes o menos) de clústeres Hive a MRS.

La migración de datos de Hive consta de dos partes:

  • Metadatos de Hive, que se almacenan en las bases de datos como MySQL. De forma predeterminada, los metadatos del clúster de Hive de MRS se almacenan en MRS DBService (base de datos de GaussDB de Huawei). También puede utilizar RDS for MySQL como base de datos de metadatos externa.
  • Datos de servicio Hive, que se almacenan en HDFS u OBS

Migración de datos de MySQL a una tabla particionada de subárbol MRS

Esta práctica demuestra cómo usar CDM para importar datos MySQL a la tabla de particiones de Hive en un clúster MRS.

Hive admite SQL para ayudarle a realizar operaciones de extracción, transformación y carga (ETL) en conjuntos de datos a gran escala. Las consultas en conjuntos de datos a gran escala tardan mucho tiempo. En muchos escenarios, puede crear particiones Hive para reducir la cantidad total de datos que se analizarán cada vez. Esto mejora significativamente el rendimiento de las consultas.

Migración de datos de MRS HDFS a OBS

Esta práctica demuestra cómo migrar datos de archivos desde MRS HDFS a OBS usando CDM.

Interconexión del sistema

Uso de DBeaver para acceder a Phoenix

Esta práctica describe cómo usar DBeaver para acceder a Phoenix.

Uso de DBeaver para acceder a HetuEngine

Esta práctica describe cómo usar DBeaver para acceder a HetuEngine.

Interconexión de Hive con bases de datos relacionales autoconstruidas externas

Esta práctica describe cómo usar Hive para conectarse a bases de datos MySQL y Postgres de código abierto.

Después de desplegar una base de datos de metadatos externa en un clúster que tiene datos de Hive, las tablas de metadatos originales no se sincronizarán automáticamente. Antes de instalar Hive, determine si desea almacenar metadatos en una base de datos externa o DBService. Para el primero, despliegue una base de datos externa al instalar Hive o cuando no hay datos de Hive. Después de la instalación de Hive, no se puede cambiar la ubicación de almacenamiento de metadatos. De lo contrario, se perderán los metadatos originales.

Interconexión de Hive con CSS

Esta práctica describe cómo usar Hive para interconectarse con CSS Elasticsearch.

En esta práctica, utilizará el complemento Elasticsearch-Hadoop para intercambiar datos entre Hive y Elasticsearch of Cloud Search Service (CSS) para que los datos del índice de Elasticsearch puedan asignarse a las tablas de Hive.