Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Descripción general del servicio/ Ventajas de MRS en comparación con Hadoop de desarrollo propio

Actualización más reciente 2023-04-14 GMT+08:00

Ver PDF

Ventajas de MRS en comparación con Hadoop de desarrollo propio

MRS proporciona clústeres de big data a nivel empresarial en la nube. Los inquilinos pueden controlar completamente los clústeres y ejecutar componentes de big data como Hadoop, Spark, HBase, Kafka y Storm con facilidad. MRS le libera de la compra y mantenimiento de hardware. MRS se basa en la plataforma de clase empresarial FusionInsight de Big Data de Huawei, y se ha implementado en decenas de miles de nodos en la industria, proporcionando garantía de SLA de varios niveles con soporte profesional del servicio del núcleo Hadoop. En comparación con los clústeres Hadoop de desarrollo propio, MRS presenta las siguientes ventajas:

MRS admite la creación, eliminación y escalado de clústeres con un solo clic. Para acceder a MRS Manager, utilice una dirección IP elástica (EIP), lo que facilitará el uso de clústeres de big data.
- Los clústeres de big data autoconstruidos plantean problemas tales como altos costos, largos períodos, operaciones y mantenimiento difíciles e inflexibles. Para resolver estos problemas, MRS proporciona creación, eliminación, escalado horizontal y escalado de clúster con un solo clic, lo que le permite personalizar el tipo de clúster, el rango de componentes, el número de nodos de cada tipo, las especificaciones de VM, zonas de disponibilidad (AZs), red de VPC e información de autenticación. MRS puede crear automáticamente un clúster que cumpla con los requisitos de configuración. Además, puede crear rápidamente clústeres de múltiples aplicaciones, por ejemplo, clúster de análisis de Hadoop, clúster de HBase y clúster de Kafka. MRS admite el despliegue de clústeres heterogéneos. Es decir, las máquinas virtuales de diferentes especificaciones se pueden combinar en un clúster basado en los tipos de CPU, las capacidades de disco, los tipos de disco y los tamaños de memoria.
- MRS proporciona un canal seguro basado en EIP para que pueda acceder fácilmente a las interfaces de usuario web de los componentes. Esto es más conveniente que vincular una EIP por sí mismo, y puede acceder a las interfaces de usuario web con unos pocos clics, evitando los pasos para iniciar sesión en una VPC, agregando reglas de grupo de seguridad y obteniendo una dirección IP pública.
- MRS proporciona acciones de arranque personalizadas para configurar de forma flexible sus clústeres dedicados. El software de terceros que no es compatible con MRS se puede instalar automáticamente, lo que le permite realizar operaciones personalizadas, como modificar el entorno de ejecución del clúster.
- MRS admite la función WrapperFS, proporciona la capacidad de traducción de OBS (es decir, acceso a OBS a través de asignación de direcciones) y puede migrar datos sin problemas de HDFS a OBS. Después de la migración, puede acceder a los datos almacenados en OBS desde los clientes sin modificar la lógica del código de servicio.
MRS admite el escalado automático, que es más rentable que el clúster de Hadoop de creación propia.
MRS admite el escalado automático para abordar las cargas de servicio pico y fuera de pico. Se aplica a recursos adicionales durante las horas pico y libera recursos inactivos durante las horas no pico, lo que le ayuda a ahorrar recursos inactivos en la plataforma de big data durante las horas no pico, minimizar los costos y centrarse en los servicios principales.

En las aplicaciones de big data, especialmente en el análisis y procesamiento de datos periódicos, los recursos informáticos de clúster deben ajustarse dinámicamente en función de los cambios en los datos de servicio para cumplir con los requisitos de servicio. La función de escalado automático de MRS permite que los clústeres sean escalados elásticamente o en función de las cargas de clúster. Además, si el volumen de datos cambia regularmente y desea escalar o en un clúster antes de que cambie el volumen de datos, puede utilizar la función de plan de recursos de MRS. MRS admite dos tipos de políticas de escalado automático: reglas de escalado automático y planes de recursos
- Reglas de escalado automático: puede aumentar o disminuir los nodos de tarea en función de las cargas de clúster en tiempo real. El escalado automático se activará cuando cambie el volumen de datos, pero puede haber algún retraso.
- Planes de recursos: si el volumen de datos cambia periódicamente, puede crear planes de recursos para cambiar el tamaño del clúster antes de que cambie el volumen de datos, evitando así un retraso en el aumento o la disminución de recursos.
Tanto las reglas de escalado automático como los planes de recursos pueden desencadenar escalado automático. Puede configurar ambos o configurar uno de ellos. La configuración de planes de recursos y reglas de escalado automático mejora la escalabilidad del nodo del clúster para hacer frente a picos de volumen de datos ocasionalmente inesperados.
MRS admite el desacoplamiento de almacenamiento y cómputo, lo que mejora en gran medida la utilización de recursos de los clústeres de big data.
En la arquitectura tradicional de big data en la que se integran recursos de almacenamiento y cómputo, la ampliación es difícil y los recursos no se utilizan bien. Para resolver estos problemas, MRS adopta una arquitectura de separación de almacenamiento de información. Basado en OBS, el almacenamiento alcanza un 99.999999999% de confiabilidad y capacidad ilimitada, lo que soporta el crecimiento continuo de los datos empresariales. Los recursos informáticos se pueden escalar elásticamente de 0 a nodos N. Cientos de nodos se pueden aprovisionar rápidamente. Con la nueva arquitectura, los nodos informáticos pueden escalarse elásticamente. El almacenamiento de datos entre zonas de disponibilidad basado en OBS garantiza una mayor confiabilidad, le libera de preocuparse por emergencias como terremotos y cortes de fibra. Los recursos de almacenamiento y computación se pueden configurar de manera flexible y escalar elásticamente según sea necesario. Esto hace que la asignación de recursos sea más precisa y razonable, mejorando en gran medida la utilización de recursos de los clústeres de big data y reduciendo el costo de análisis integral en un 50%.

Además, la arquitectura de separación de computación-almacenamiento de alto rendimiento rompe el límite de computación paralela de la arquitectura integrada de computación-almacenamiento de información. Maximiza el alto ancho de banda y la alta concurrencia de OBS, y optimiza la eficiencia del acceso a los datos y la computación en paralelo en profundidad (como la operación de metadatos y la optimización del algoritmo de escritura) para mejorar un mayor rendimiento.
MRS es compatible con CarbonData y Superior Scheduler de desarrollo propio, lo que brinda un mejor rendimiento.
- MRS admite la tecnología de almacenamiento de CarbonData desarrollada por sí misma. CarbonData es una solución de almacenamiento de big data de alto rendimiento. Permite que un conjunto de datos se aplique a múltiples escenarios y admite funciones, como la indexación de varios niveles, la codificación de diccionarios, la agregación previa, la partición dinámica y la consulta de datos en tiempo casi real. Esto mejora el escaneo de E/S y el rendimiento informático y devuelve los resultados del análisis de decenas de miles de millones de registros de datos en segundos.
- Además, MRS admite el programador superior de desarrollo propio, que mejora la capacidad de escalado de un solo clúster y es capaz de programar más de 10,000 nodos en un clúster. Superior Scheduler es un motor de programación diseñado para el sistema de gestión de recursos distribuidos de Hadoop YARN. Es un programador de alto rendimiento y de nivel empresarial diseñado para grupos de recursos convergentes y requisitos de servicio de inquilinos múltiples. Superior Scheduler logra todas las funciones de programadores de código abierto, Fair Scheduler, y Capacity Scheduler. En comparación con los planificadores de código abierto, Superior Scheduler se ha mejorado en la política de planificación de recursos de múltiples inquilinos empresariales, el aislamiento de recursos y el uso compartido de múltiples usuarios en un inquilino, el rendimiento de planificación, la utilización de recursos del sistema y la escalabilidad del clúster, y está diseñado para reemplazar a los planificadores de código abierto.
MRS optimiza el software y el hardware en función de los procesadores Kunpeng para liberar completamente la potencia informática del hardware y lograr la rentabilidad.
MRS soporta servidores de Kunpeng autodesarrollados cuyas capacidades multi-núcleo y de alta simultaneidad se utilizan completamente para proporcionar chips auto-optimizados de pila completa, y utiliza EulerOS autodesarrollados, Huawei JDK, y la capa de aceleración de datos para garantizar el rendimiento del hardware, entregando un alto poder de computación para la computación de big data. Con el rendimiento similar, el costo de la solución de big data de extremo a extremo se reduce en un 30%.
MRS admite múltiples modos de aislamiento y gestión de permisos de múltiples inquilinos de big data de nivel empresarial, lo que garantiza una mayor seguridad.
- MRS admite la implementación de recursos y el aislamiento de recursos físicos en zonas dedicadas. Puede combinar de forma flexible recursos informáticos y de almacenamiento, como recursos informáticos dedicados + recursos de almacenamiento compartidos, recursos informáticos compartidos + recursos de almacenamiento dedicados y recursos informáticos dedicados + recursos de almacenamiento dedicados. Un clúster de MRS admite múltiples inquilinos lógicos. El aislamiento de permisos permite dividir los recursos informáticos, de almacenamiento y de tablas del clúster en función de los inquilinos.
- Con la autenticación Kerberos, MRS proporciona funciones de control de acceso basado en roles (RBAC) y auditoría de sonido.
- Con Cloud Trace Service (CTS) interconectado con MRS, se le proporcionan registros de operaciones de solicitudes de operación de recursos MRS y resultados de solicitudes para consultas, auditorías y seguimiento. Puede usar CTS para auditar y rastrear todas las operaciones del clúster.
- Se ha demostrado que con Host Security Service (HSS) interconectado con MRS, la seguridad del servicio se mejora sin deteriorar las funciones y el rendimiento.
- MRS admite el inicio de sesión de usuario unificado basado en la interfaz de usuario web. El administrador proporciona autenticación de usuario, que le otorga permiso para acceder a un clúster.
- MRS admite el cifrado de almacenamiento de datos, el almacenamiento cifrado de todas las cuentas de usuario y contraseñas, la transmisión cifrada de canales de datos y la autenticación de certificado bidireccional para el acceso a datos de zonas de confianza cruzada de los módulos de servicio.
- Los clústeres de big data de MRS proporcionan una solución completa de múltiples inquilinos para big data de nivel empresarial. Multiinquilino hace referencia a una colección de varios recursos (cada conjunto de recursos es un inquilino) en un clúster de big data de MRS. Puede asignar y programar recursos, incluidos los recursos informáticos y de almacenamiento. Multitenant aísla los recursos de un clúster de big data en conjuntos de recursos. Los usuarios pueden arrendar los conjuntos de recursos deseados para ejecutar aplicaciones y trabajos y almacenar datos. En un clúster de big data, se pueden implementar varios conjuntos de recursos para satisfacer diversos requisitos de varios usuarios.
- MRS admite la gestión de permisos de grano fino. Con la capacidad de autorización detallada proporcionada por Huawei Cloud IAM, MRS puede especificar las operaciones, los recursos y las condiciones de solicitud de servicios específicos. Este mecanismo permite una autorización más flexible basada en políticas, cumpliendo los requisitos para un control de acceso seguro. Por ejemplo, puede conceder a los usuarios de MRS únicamente los permisos para realizar operaciones especificadas en clústeres de MRS, como crear un clúster y consultar una lista de clústeres en lugar de eliminar un clúster. Además, MRS admite la gestión de permisos de OBS para múltiples inquilinos. Los permisos para acceder a los depósitos y objetos de OBS en los depósitos se diferencian en función de los roles de usuario, de modo que los usuarios de MRS pueden controlar cada uno un directorio diferente en los buckets de OBS.
- MRS apoya la gestión de proyectos empresariales. El proyecto empresarial es una forma de gestionar los recursos en la nube. Enterprise Management proporciona servicios de gestión integrales para clientes empresariales, como recursos en la nube, personal, permisos y estados financieros. Las consolas de gestión comunes están orientadas al control y configuración de productos en la nube individual. Por el contrario, la consola de Enterprise Management está más centrada en la gestión de recursos. Está diseñado para ayudar a las empresas a gestionar recursos, personal, permisos y finanzas basados en la nube, de manera jerárquica, como la gestión de empresas, departamentos y proyectos. MRS permite a los usuarios que han habilitado Enterprise Project Management Service (EPS) configurar proyectos empresariales para un clúster durante la creación de clústeres y utilizar EPS para gestionar recursos MRS por grupo. Esta función es aplicable a escenarios en los que necesita gestionar varios recursos por grupo y realizar operaciones como el control de permisos y la consulta de tarifas basada en proyectos de empresa.
MRS implementa HA para todos los nodos de gestión y admite un mecanismo de confiabilidad integral, lo que hace que el sistema sea más confiable.
Basado en el software de código abierto de Apache Hadoop, MRS optimiza y mejora la fiabilidad de los principales componentes del servicio.
- HA para todos los nodos de gestión
  En la versión de código abierto de Hadoop, los datos y los nodos de cómputo se gestionan en un sistema distribuido, en el que un único punto de fallo (SPOF) no afecta al funcionamiento de todo el sistema. Sin embargo, un SPOF puede ocurrir en nodos de gestión que se ejecutan en modo centralizado, lo que se convierte en la debilidad de la confiabilidad global del sistema.
  
  MRS proporciona mecanismos de doble nodo similares para todos los nodos de gestión de los componentes de servicio, como Manager, Presto, HDFS NameNodes, Hive Servers, HBase HMasters, YARN Resource Managers, Kerberos Servers, y Ldap Servers. Todos ellos se implementan en modo activo/en espera o se configuran con carga compartida, lo que evita que los SPOF afecten la confiabilidad del sistema.
- Mecanismo de confiabilidad integral
  Mediante el análisis de confiabilidad, se proporcionan las siguientes medidas para manejar excepciones de software y hardware para mejorar la confiabilidad del sistema:
  - Después de restaurar la fuente de alimentación, los servicios se ejecutan correctamente independientemente de un fallo de alimentación de un solo nodo o de todo el clúster, lo que garantiza la confiabilidad de los datos en caso de fallos de alimentación inesperados. Los datos clave no se perderán a menos que el disco duro esté dañado.
  - Las comprobaciones del estado de salud y el manejo de fallos del disco duro no afectan a los servicios.
  - Las fallas del sistema de archivos se pueden manejar automáticamente y los servicios afectados se pueden restaurar automáticamente.
  - Las fallas del proceso y del nodo se pueden manejar automáticamente, y los servicios afectados se pueden restaurar automáticamente.
  - Las fallas de la red se pueden manejar automáticamente y los servicios afectados se pueden restaurar automáticamente.
MRS proporciona una interfaz de gestión de clústeres de big data visualizada de manera unificada, lo que facilita la operación y el mantenimiento.
- En la interfaz de gestión de clústeres de big data, están disponibles el inicio y la detención del servicio, la modificación de la configuración y la comprobación de estado. MRS también proporciona funciones visualizadas y convenientes de gestión, monitoreo y alarma de clústeres. Además, puede comprobar y auditar el estado del sistema con un solo clic, lo que garantiza el funcionamiento normal del sistema y reduce los costos de operación del sistema.
- Después de que se configura la notificación de mensaje simple (SMN), MRS puede enviar información del estado de funcionamiento del clúster en tiempo real, incluidos los cambios del clúster y las alarmas de componentes en tiempo real a través de mensajes SMS o correos electrónicos, lo que facilita el monitoreo en tiempo real, y envío de alarmas en tiempo real.
- MRS admite la actualización continua de parches y proporciona información de liberación de parches visualizada y la instalación de parches con un solo clic sin intervención manual, lo que garantiza la estabilidad a largo plazo de los clústeres de usuarios.
- Si se produce un problema al utilizar un clúster MRS, puede iniciar la autorización O&M en la consola de gestión de MRS. El personal de O&M puede ayudarlo a localizar rápidamente el problema, y puede revocar la autorización en cualquier momento. También puede iniciar el uso compartido de registros en la consola de gestión de MRS para compartir un ámbito de log especificado con el personal de O&M, de modo que el personal de O&M pueda localizar fallas sin tener acceso al clúster.
- MRS admite el volcado de registros sobre fallas de creación de clústeres en OBS para que el personal de O&M obtenga y analice logs.
MRS tiene un ecosistema abierto y admite una interconexión perfecta con servicios periféricos, lo que le permite crear rápidamente una plataforma unificada de big data.
- Basado en MRS, un servicio de big data de pila completa, las empresas pueden construir una plataforma de big data unificada para la ingesta de datos, almacenamiento, análisis y minería de valor con un solo clic, e interconectarse con el estudio de DataArts y los servicios de visualización de datos para ayudar a los clientes a migrar fácilmente los datos a la nube. desarrollar y programar trabajos de big data y mostrar datos. Esto libera a los clientes de la construcción de plataformas de big data complejas y de la calibración y el mantenimiento profesionales de big data para que los clientes puedan centrarse más en las aplicaciones de la industria y utilizar una copia de datos en múltiples escenarios de servicio. DataArts es una plataforma integral de operaciones de desarrollo del ciclo de vida de los datos que ofrece una amplia gama de funciones, como integración de datos, desarrollo, gobernanza, servicio y visualización. Los datos de MRS se pueden ingerir en DataArts Studio para el desarrollo colaborativo visualizado con un solo clic aprovechando la interfaz gráfica de usuario visualizada de DataArts Studio, abundantes tipos de desarrollo de datos (guión y trabajo), programación de trabajos totalmente hospedada y monitoreo de O&M, y canalizaciones de procesamiento de datos de la industria integradas. Esto hace que el big data sea mucho más fácil de usar, le ayuda a construir rápidamente centros de procesamiento de big data y permite una monetización rápida.
- MRS es totalmente compatible con el ecosistema de big data de código abierto. Con abundantes herramientas de migración de datos y aplicaciones, MRS le ayuda a migrar datos rápidamente desde sus propias plataformas sin modificación de código ni interrupción del servicio.