¿Qué es MRS?
La tecnología de big data se presenta como uno de los grandes desafíos a los que deberá hacer frente la era de Internet, ya que el volumen y los tipos de datos aumentan a niveles exponenciales. Las tecnologías de procesamiento de datos convencionales, como el almacenamiento en un solo nodo y las bases de datos relacionales, no pueden resolver los problemas emergentes inherentes a la tecnologías de big data. En este caso, Apache Software Foundation (ASF) ha lanzado una solución de código abierto para el procesamiento de big data Hadoop. Hadoop es una plataforma informática distribuida de código abierto que puede utilizar plenamente las capacidades informáticas y de almacenamiento de clústeres para procesar cantidades masivas de datos. Si las empresas despliega los sistemas de Hadoop por sí mismas, las desventajas incluyen altos costos, largo período de despliegue, mantenimiento difícil y uso inflexible.
Para solucionar estos problemas, el servicio MapReduce (MRS) se proporciona en Huawei Cloud para que pueda gestionar los componentes basados en Hadoop. Con MRS, puede desplegar un clúster de Hadoop con unos pocos clics. MRS proporciona clústeres de big data a nivel empresarial en la nube. Los inquilinos pueden controlar completamente los clústeres y ejecutar fácilmente componentes de big data como Storm, , Hadoop, Spark, HBase y Kafka. MRS es totalmente compatible con las API de código abierto e incorpora las ventajas de Huawei Cloud, la computación en la nube y el almacenamiento y la experiencia de la industria de big data para proporcionar a los clientes una plataforma de big data completa con alto rendimiento, bajo costo, flexibilidad y facilidad de uso. Además, la plataforma se puede personalizar en función de los requisitos de servicio para ayudar a las empresas a construir rápidamente un sistema de procesamiento de datos masivo y descubrir nuevos puntos de valor y oportunidades de negocio mediante el análisis y la extracción de cantidades masivas de datos en tiempo real o en tiempo no real.
Arquitectura del producto
Lista de versiones de componentes de MRS enumera las versiones del componente de MRS.
Figura 1 muestra la arquitectura lógica de MRS.
MRS 3.x o posterior no admite la gestión de parches en la consola de gestión.
La arquitectura de MRS incluye infraestructura y fases de procesamiento de big data.
- Infraestructura
Los clústeres de big data MRS se basan en Huawei Cloud Elastic Cloud Server (ECS), y utilizan plenamente las capacidades de alta confiabilidad y seguridad de la capa de virtualización.
- Virtual Private Cloud (VPC) es una red interna virtual proporcionada para cada tenant. Está aislado de otras redes de forma predeterminada.
- Elastic Volume Service (EVS) proporciona almacenamiento altamente confiable y de alto rendimiento.
- ECS proporciona VM escalables y funciona con VPC, grupos de seguridad y el mecanismo de múltiples réplicas de EVS para crear un entorno informático eficiente, confiable y seguro.
- Recopilación de datos
La capa de recopilación de datos proporciona la capacidad de importar datos de varias fuentes de dta, como Flume (ingestión de datos), Loader (importación de datos relacionales) y Kafka (cola de mensajes altamente confiable), a clústeres de big data MRS. Alternativamente, puede usar Cloud Data Migration (CDM) para importar datos externos a clústeres de MRS.
- Almacenamiento de datos
Los clústeres de MRS pueden almacenar datos estructurados y no estructurados, y admiten múltiples formatos eficientes para satisfacer los requisitos de diferentes motores informáticos.
- HDFS es un sistema de archivos distribuido de propósito general en una plataforma de big data.
- OBS es un servicio de almacenamiento de objetos que ofrece alta disponibilidad y bajo costo.
- HBase admite el almacenamiento de datos con índices y es aplicable a escenarios de consultas basadas en índices de alto rendimiento.
- Procesamiento de convergencia de datos
- MRS proporciona múltiples motores de cómputo principales, incluidos MapReduce (procesamiento por lotes), Tez (modelo DAG), Spark (computación en memoria), Spark Streaming (computación de flujo por micro lotes), Storm (computación de flujo) y Flink (computación de flujo), para convertir datos estructuras y lógica en modelos de datos que cumplen con los requisitos de servicio en una variedad de escenarios de aplicaciones de big data.
- Según el modelo de datos preestablecido y el análisis de datos de SQL fácil de usar, los usuarios pueden seleccionar Hive (almacenamiento de datos), SparkSQL y Presto (motor de consultas interactivas).
- Visualización y planificación de datos
Muestra los resultados del análisis de datos y se integra con DataArts para proporcionar una plataforma de desarrollo colaborativo de big data única, lo que le ayuda a completar fácilmente múltiples tareas, como el modelado de datos, la integración de datos, el desarrollo de scripts, la programación de trabajos y la supervisión de O&M. hacer que el big data sea más accesible que nunca y ayudarle a construir sin esfuerzo centros de procesamiento de big data.
- Gestión de clústeres
Todos los componentes del ecosistema de big data basado en Hadoop se despliega en modo distribuido, y su despliegue, gestión y operación son complejos.
MRS proporciona una plataforma de gestión O&M unificada para la gestión de clústeres, que admite la implementación de clústeres con un solo clic, la selección de múltiples versiones, así como el escalado manual y el escalado automático de clústeres sin interrupción del servicio. Además, MRS proporciona gestión de trabajos, gestión de etiquetas de recursos y O&M de los componentes de procesamiento de datos anteriores en cada capa. También proporciona capacidades de operación de una sola parada, que abarcan monitoreo, informes de alarmas, configuración y actualización de parches.
Ventajas del producto
MRS tiene un potente equipo de núcleo Hadoop y se implementa basado en la plataforma de big data FusionInsight de Huawei. MRS se ha desplegado en decenas de miles de nodos y puede garantizar Acuerdos de nivel de servicio (SLA) para usuarios de varios niveles.
MRS tiene las siguientes ventajas:
- Alto rendimiento
MRS admite la tecnología de almacenamiento de CarbonData desarrollada por sí misma. CarbonData es una solución de almacenamiento de big data de alto rendimiento. Permite que un conjunto de datos se aplique a múltiples escenarios y admite funciones, como la indexación de varios niveles, la codificación de diccionarios, la agregación previa, la partición dinámica y la consulta de datos en tiempo casi real. Esto mejora el escaneo de E/S y el rendimiento informático y devuelve los resultados del análisis de decenas de miles de millones de registros de datos en segundos. Además, MRS admite el planificador mejorado Superior de desarrollo propio, que rompe el cuello de botella de escala de un solo clúster y es capaz de planificar sobre nodos de 10,000 en un clúster.
- Rentabilidad
Basado en una infraestructura en la nube diversificada, MRS ofrece varias opciones de computación y almacenamiento y separa la computación del almacenamiento, ofreciendo soluciones de almacenamiento masivo de datos rentables. MRS admite el escalado automático para abordar las cargas de servicio pico y fuera de pico, liberando recursos inactivos en la plataforma de big data para los clientes. Los clústeres MRS se pueden crear y escalar cuando los necesite, y se pueden terminar o escalar después de usarlos, minimizando el costo.
- Alto nivel de seguridad
MRS ofrece gestión de permisos de múltiples inquilinos de big data a nivel empresarial y gestión de seguridad para admitir el control de acceso y encriptación de datos basados en tablas y columnas.
- O&M Fácil
MRS proporciona una plataforma de gestión de clústeres de big data visualizada, mejorando la eficiencia de operación. MRS admite la actualización continua de parches y proporciona información de liberación de parches visualizada y la instalación de parches con un solo clic sin intervención manual, lo que garantiza la estabilidad a largo plazo de los clústeres de usuarios.
- Alta confiabilidad
La confiabilidad probada a gran escala y la estabilidad a largo plazo de MRS cumplen con los requisitos de alta confiabilidad de nivel empresarial. Además, MRS admite copias de respaldo automáticas de datos en zonas de disponibilidad y regiones, así como antiafinidad automática. Permite que las máquinas virtuales se distribuyan en diferentes máquinas físicas.
Usar MRS por primera vez
Si es la primera vez que lo usa, familiarícese con la siguiente información:
- Conceptos básicos
Consulte Componentes y Funciones para aprender los conocimientos básicos de MRS, incluidos los principios básicos y las funciones mejoradas de cada componente de MRS, así como los conceptos y funciones únicos de MRS.
- Pasos iniciales
Para saber cómo usar MRS, consulte Pasos iniciales de MapReduce Service. "Pasos iniciales" proporciona una guía de operación detallada de las muestras. Puede crear y utilizar clústeres de MRS según las instrucciones de operación.
- Otras funciones y guías de operación
Si es un usuario de clúster MRS e ingeniero de O&M, puede realizar operaciones como la gestión del ciclo de vida del clúster, el escalado y la gestión de trabajos consultando Guía de usuario de MapReduce Service. Consulte Guía de operación de componentes de MapReduce Service para obtener información sobre cómo usar componentes en un clúster.
Si es desarrollador, puede consultar la guía de operaciones y los proyectos de muestra en Guía de desarrollo de MapReduce Service de MRS para desarrollar, ejecutar y poner en marcha sus propias aplicaciones. También puede invocar a las API para gestionar clústeres MRS y ejecutar trabajos. Para obtener más información, consulte Referencia de API de MapReduce Service.