Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Referencia de alarma (aplicable a MRS 3.x)/ ALM-12180 E/S de disco suspendido

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-12180 E/S de disco suspendido

Descripción

En el caso de HDDs, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
- El sistema recopila datos cada 3 segundos y detecta que el valor svctm supera los 6 segundos durante 10 periodos consecutivos en 30 segundos.
- El sistema recoge datos cada 3 segundos, y detecta que el valor avgqu-sz es mayor que 0, el IOPS o ancho de banda es 0, y el valor ioutil es mayor que 99% durante 10 períodos consecutivos en 30 segundos.
Para las SSD, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
- El sistema recopila datos cada 3 segundos y detecta que el valor svctm supera los 2 segundos durante 10 periodos consecutivos en 30 segundos.
- El sistema recoge datos cada 3 segundos, y detecta que el valor avgqu-sz es mayor que 0, el IOPS o ancho de banda es 0, y el valor ioutil es mayor que 99% durante 10 períodos consecutivos en 30 segundos.

Esta alarma se borra automáticamente cuando las condiciones anteriores no se han cumplido durante 90s.

Ejecute el siguiente comando en el sistema operativo para recopilar datos:
iostat -x -t 1 1

Los parámetros son los siguientes:

avgqu-sz indica la profundidad de la cola del disco.

La suma de r/s y w/s es la IOPS.

La suma de rkB/s y wkB/s es el ancho de banda.

%util es el valor ioutil.
MRS 3.1.0:
Ejecute el comando iostat -x -t en el sistema operativo.
Calcule svctm de la siguiente manera en versiones posteriores a MRS 3.1.0:
svctm = (tot_ticks_new - tot_ticks_old)/(rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old)

Si rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old es 0, entonces svctm es 0.

Los parámetros se pueden obtener de la siguiente manera:

El sistema ejecuta el comando cat /proc/diskstats cada 3 segundos para recopilar datos. Por ejemplo:

En estos dos comandos:

En los datos recopilados por primera vez, el número en la cuarta columna es el valor rd_ios_old, el número en la octava columna es el valor wr_ios_old y el número en la decimotercera columna es el valor tot_ticks_old.

En los datos recopilados por segunda vez, el número en la cuarta columna es el valor rd_ios_new, el número en la octava columna es el valor wr_ios_new y el número en la decimotercera columna es el valor tot_ticks_new.

En este caso, el valor de svctm es el siguiente:

(19571460 - 19569526)/(1101553 + 28747977 - 1101553 - 28744856) = 0.6197

Atributo

ID de alarma	Severidad de alarma	Borrar automáticamente
12180	Grave	Sí

Parámetros

Nombre	Significado
Source	Especifica el clúster o sistema para el que se genera la alarma.
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.
DiskName	Especifica el disco para el que se genera la alarma.

Impacto en el sistema

Un uso de E/S continuamente alto puede afectar negativamente a las operaciones de servicio y dar como resultado la pérdida de servicio.

Causas posibles

El disco está envejecido.

Procedimiento

Reemplazar el disco.

Inicie sesión en FusionInsight Manager y elija O&M > Alarm > Alarms.
Vea la información detallada sobre la alarma. Compruebe los valores de HostName y DiskName en la información de ubicación para obtener la información sobre el disco defectuoso para el que se informa la alarma.
Reemplace el disco duro.
Verifique si la alarma se ha borrado.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 5.

Recopilar información de fallas.

En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
Seleccione OMS para Service y haga clic en OK.
Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
Póngase en contacto con y proporcione los registros recopilados.