Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Descripción general del servicio/ Funciones/ Mejora de la confiabilidad

Actualización más reciente 2023-04-14 GMT+08:00

Ver PDF

Mejora de la confiabilidad

Basado en el software de código abierto Apache Hadoop, MRS optimiza y mejora la confiabilidad y el rendimiento de los principales componentes del servicio.

Confiabilidad del sistema

HA para todos los nodos de gestión
En la versión de código abierto de Hadoop, los datos y los nodos de cómputo se gestionan en un sistema distribuido, en el que un único punto de fallo (SPOF) no afecta al funcionamiento de todo el sistema. Sin embargo, un SPOF puede ocurrir en nodos de gestión que se ejecutan en modo centralizado, lo que se convierte en la debilidad de la confiabilidad global del sistema.

MRS proporciona mecanismos de doble nodo similares para todos los nodos de gestión de los componentes de servicio, como Manager, HDFS NameNodes, HiveServers, HBase HMasters, Yarn ResourceManagers, KerberosServers, y LdapServers. Todos ellos se implementan en modo activo/en espera o se configuran con carga compartida, lo que evita que los SPOF afecten la confiabilidad del sistema.
Garantía de confiabilidad en caso de excepciones.
Mediante el análisis de confiabilidad, se proporcionan las siguientes medidas para manejar excepciones de software y hardware para mejorar la confiabilidad del sistema:
- Después de restaurar la fuente de alimentación, los servicios se ejecutan correctamente independientemente de un fallo de alimentación de un solo nodo o de todo el clúster, lo que garantiza la confiabilidad de los datos en caso de fallos de alimentación inesperados. Los datos clave no se perderán a menos que el disco duro esté dañado.
- Las comprobaciones del estado de salud y el manejo de fallos del disco duro no afectan a los servicios.
- Las fallas del sistema de archivos se pueden manejar automáticamente y los servicios afectados se pueden restaurar automáticamente.
- Las fallas del proceso y del nodo se pueden manejar automáticamente, y los servicios afectados se pueden restaurar automáticamente.
- Las fallas de la red se pueden manejar automáticamente y los servicios afectados se pueden restaurar automáticamente.
Copia de resapldo y restauración de datos
MRS proporciona funciones de copia de respaldo completa, copia de respaldo incremental y restauración basadas en los requisitos de servicio, evitando el impacto de la pérdida de datos y daños en los servicios y asegurando una rápida restauración del sistema en caso de excepciones.
- Copia de respaldo automática
  MRS proporciona una copia de respaldo automática de los datos en Manager. Según la política de copia de respaldo personalizada, los datos de los clústeres, incluidos los datos de LdapServer y DBService, se pueden hacer copias de respaldo automáticamente.
- Copia de respaldo manual
  También puede realizar una copia de seguridad manual de los datos del sistema de gestión de clústeres antes de ampliación de capacidad, y la instalación de parches para recuperar las funciones del sistema de gestión de clústeres en caso de fallas.
  
  Para mejorar la confiabilidad del sistema, los datos en Manager y HBase se respaldan manualmente en un servidor de terceros.

confiabilidad del nodo

Supervisión del estado del sistema operativo
MRS recopila periódicamente datos de uso de recursos de hardware del sistema operativo, incluido el uso de CPU, memoria, discos duros y recursos de red.
Supervisión del estado del proceso
MRS comprueba el estado de las instancias de servicio y los indicadores de estado de los procesos de instancia de servicio, lo que le permite conocer el estado de estado de los procesos de manera oportuna.
Solución automática de problemas de disco
MRS está mejorado basado en la versión de código abierto. Puede supervisar el estado del hardware y los sistemas de archivos en todos los nodos. Si se produce una excepción, las particiones correspondientes se eliminarán del grupo de almacenamiento. Si un disco está defectuoso y se reemplaza, se agregará un nuevo disco duro para ejecutar los servicios. En este caso, se simplifican las operaciones de mantenimiento. La sustitución de los discos defectuosos se puede completar en línea. Además, los usuarios pueden configurar discos de copia de respaldo en caliente para reducir el tiempo de restauración del disco defectuoso y mejorar la confiabilidad del sistema.
Configuración de LVM para discos de nodo
MRS le permite configurar Logic Volume Management (LVM) para planificar varios discos como un grupo de volúmenes lógicos. La configuración de LVM puede evitar el uso desigual de los discos. Es especialmente importante garantizar el uso uniforme de discos en componentes que pueden usar múltiples capacidades de disco, como HDFS y Kafka. Además, LVM admite la expansión de la capacidad del disco sin volver a conectarlo, lo que evita la interrupción del servicio.

Confiabilidad de los datos

MRS puede usar los grupos de nodos de antiafinidad y las capacidades de grupos de colocación proporcionadas por ECS y la capacidad de reconocimiento de rack de Hadoop para distribuir datos de manera redundante a múltiples máquinas host físicas, evitando la pérdida de datos causada por fallas de hardware físico.

Tema principal: Funciones

Tema anterior: Fácil acceso a Web UIs de componentes

Tema siguiente: Gestión de trabajos