Recuperación de fallas
La infraestructura global de ModelArts está diseñada para las regiones y zonas de disponibilidad (AZ) de Huawei Cloud. Una región en Huawei Cloud ofrece múltiples AZ físicamente independientes y aisladas que se conectan con redes con baja demora, alto rendimiento y alta redundancia. Puede diseñar y operar aplicaciones y bases de datos con fallas que se migran automáticamente entre las AZ sin interrumpir los servicios. En comparación con la infraestructura tradicional de un singular centro de datos o múltiples centros de datos, las AZ ofrecen mayor disponibilidad, tolerancia a fallas y escalabilidad.
ModelArts realiza copias de seguridad de los datos de su base de datos para recuperarlos en caso de falla del servicio o de daños en los datos originales.
Recuperación del entorno de fallas
Si un nodo de cómputo utilizado por una instancia de notebook presenta fallas, la instancia se migrará automáticamente a otro nodo disponible. Luego, se restaura la instancia. ModelArts permite montar un disco de EVS en una instancia. Huawei Cloud EVS ofrece almacenamiento en bloques escalable con alta confiabilidad, alto rendimiento y una variedad de especificaciones para servidores. La durabilidad de los datos alcanza el 99.9999999%.
Recuperación automática de un fallo de entrenamiento
Durante el entrenamiento del modelo, es posible que se produzca una falla en el entrenamiento debido a una falla de hardware. En caso de fallas de hardware, ModelArts ofrece verificación de tolerancia a fallas para aislar los nodos defectuosos y mejorar la experiencia del usuario durante el entrenamiento.
La verificación de tolerancia a fallas incluye una verificación previa del entorno y una verificación periódica del hardware. Si se detecta alguna falla durante cualquiera de las comprobaciones, ModelArts aísla automáticamente el hardware defectuoso y vuelve a emitir el trabajo de entrenamiento. En el entrenamiento distribuido, la verificación de tolerancia a fallas se realizará en todos los nodos de cómputo utilizados por el trabajo de entrenamiento.
Recuperación de una falla de despliegue de la inferencia
Durante la ejecución del servicio, si una instancia de inferencia presenta fallas debido a un error de hardware, ModelArts detecta automáticamente la falla y migra esa instancia defectuosa a otro nodo disponible. Después de reiniciar la instancia, se restaurará. El nodo defectuoso se aísla automáticamente y no se programa para ejecutar instancias de inferencia.