Prácticas
Después de desplegar un clúster MRS, puede probar algunas prácticas proporcionadas por MRS para satisfacer sus requisitos de servicio.
Práctica |
Descripción |
|
---|---|---|
Análisis de datos |
Uso de Spark2x para analizar el comportamiento de conducción de los conductores de IoV |
Esta práctica describe cómo usar Spark para analizar el comportamiento de conducción. Puede familiarizarse con las funciones básicas de MRS utilizando el componente Spark2x para analizar y recopilar estadísticas sobre el comportamiento de conducción, obtener el resultado del análisis y recopilar estadísticas sobre el número de violaciones, tales como aceleración y desaceleración repentinas, inercia, exceso de velocidad, y la fatiga de conducir en un período determinado. |
Uso de Hive para cargar datos HDFS y analizar las puntuaciones del libro |
Esta práctica describe cómo usar Hive para importar y analizar datos sin procesar y cómo crear análisis de big data fuera de línea elásticos y asequibles. En esta práctica, la lectura de comentarios del fondo de un sitio web de un libro se utiliza como datos brutos. Después de importar los datos a una tabla Hive, puede ejecutar comandos SQL para consultar los libros más vendidos más populares. |
|
Uso de Hive para cargar datos OBS y analizar información de empleados empresariales |
Esta práctica describe cómo usar Hive para importar y analizar datos sin procesar de OBS y cómo crear análisis de big data elásticos y asequibles basados en recursos de procesamiento y almacenamiento desacoplados. Esta práctica describe cómo desarrollar una aplicación de análisis de datos de Hive y cómo ejecutar sentencias HQL para acceder a los datos de Hive almacenados en OBS después de conectarse a Hive a través del cliente. Por ejemplo, gestionar y consultar la información de los empleados de la empresa. |
|
Esta práctica describe cómo utilizar el programa WordCount Flink integrado de un clúster MRS para analizar los datos de origen almacenados en el sistema de archivos OBS y calcular el número de ocurrencias de palabras especificadas en el origen de datos. MRS admite almacenamiento y cómputo desacoplados en escenarios en los que se requiere una gran capacidad de almacenamiento y los recursos de cómputo deben escalarse según la demanda. Esto le permite almacenar sus datos en OBS y usar un clúster MRS solo para computación de datos. |
||
Migración de datos |
Esta práctica describe cómo migrar datos HDFS, HBase y Hive a un clúster MRS en diferentes escenarios. Intentará prepararse para la migración de datos, exportar metadatos, copiar datos y restaurar datos. |
|
En esta práctica, CDM se utiliza para migrar datos (decenas de terabytes o menos) de clústeres Hadoop a MRS. |
||
En esta práctica, CDM se utiliza para migrar datos (decenas de terabytes o menos) de clústeres HBase a MRS. HBase almacena datos en HDFS, incluidos los archivos HFile y WAL. El elemento de configuración hbase.rootdir especifica la ruta de acceso de HDFS. De forma predeterminada, los datos se almacenan en la carpeta /hbase en MRS. Algunos mecanismos y comandos de herramientas de HBase también se pueden utilizar para migrar datos. Por ejemplo, puede migrar datos exportando instantáneas, exportando e importando datos y CopyTable. |
||
En esta práctica, CDM se utiliza para migrar datos (decenas de terabytes o menos) de clústeres Hive a MRS. La migración de datos de Hive consta de dos partes:
|
||
Migración de datos de MySQL a una tabla particionada de subárbol MRS |
Esta práctica demuestra cómo usar CDM para importar datos MySQL a la tabla de particiones de Hive en un clúster MRS. Hive admite SQL para ayudarle a realizar operaciones de extracción, transformación y carga (ETL) en conjuntos de datos a gran escala. Las consultas en conjuntos de datos a gran escala tardan mucho tiempo. En muchos escenarios, puede crear particiones Hive para reducir la cantidad total de datos que se analizarán cada vez. Esto mejora significativamente el rendimiento de las consultas. |
|
Esta práctica demuestra cómo migrar datos de archivos desde MRS HDFS a OBS usando CDM. |
||
Interconexión del sistema |
Esta práctica describe cómo usar DBeaver para acceder a Phoenix. |
|
Esta práctica describe cómo usar DBeaver para acceder a HetuEngine. |
||
Interconexión de Hive con bases de datos relacionales autoconstruidas externas |
Esta práctica describe cómo usar Hive para conectarse a bases de datos MySQL y Postgres de código abierto. Después de desplegar una base de datos de metadatos externa en un clúster que tiene datos de Hive, las tablas de metadatos originales no se sincronizarán automáticamente. Antes de instalar Hive, determine si desea almacenar metadatos en una base de datos externa o DBService. Para el primero, despliegue una base de datos externa al instalar Hive o cuando no hay datos de Hive. Después de la instalación de Hive, no se puede cambiar la ubicación de almacenamiento de metadatos. De lo contrario, se perderán los metadatos originales. |
|
Esta práctica describe cómo usar Hive para interconectarse con CSS Elasticsearch. En esta práctica, utilizará el complemento Elasticsearch-Hadoop para intercambiar datos entre Hive y Elasticsearch of Cloud Search Service (CSS) para que los datos del índice de Elasticsearch puedan asignarse a las tablas de Hive. |