ALM-12180 E/S de disco suspendido
Descripción
- En el caso de HDDs, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
- El sistema recopila datos cada 3 segundos y detecta que el valor svctm supera los 6 segundos durante 10 periodos consecutivos en 30 segundos.
- El sistema recoge datos cada 3 segundos, y detecta que el valor avgqu-sz es mayor que 0, el IOPS o ancho de banda es 0, y el valor ioutil es mayor que 99% durante 10 períodos consecutivos en 30 segundos.
- Para las SSD, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
- El sistema recopila datos cada 3 segundos y detecta que el valor svctm supera los 2 segundos durante 10 periodos consecutivos en 30 segundos.
- El sistema recoge datos cada 3 segundos, y detecta que el valor avgqu-sz es mayor que 0, el IOPS o ancho de banda es 0, y el valor ioutil es mayor que 99% durante 10 períodos consecutivos en 30 segundos.
Esta alarma se borra automáticamente cuando las condiciones anteriores no se han cumplido durante 90s.
- Ejecute el siguiente comando en el sistema operativo para recopilar datos:
Los parámetros son los siguientes:
avgqu-sz indica la profundidad de la cola del disco.
La suma de r/s y w/s es la IOPS.
La suma de rkB/s y wkB/s es el ancho de banda.
%util es el valor ioutil.
- MRS 3.1.0:
- Calcule svctm de la siguiente manera en versiones posteriores a MRS 3.1.0:
svctm = (tot_ticks_new - tot_ticks_old)/(rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old)
Si rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old es 0, entonces svctm es 0.
Los parámetros se pueden obtener de la siguiente manera:
El sistema ejecuta el comando cat /proc/diskstats cada 3 segundos para recopilar datos. Por ejemplo:
En estos dos comandos:
En los datos recopilados por primera vez, el número en la cuarta columna es el valor rd_ios_old, el número en la octava columna es el valor wr_ios_old y el número en la decimotercera columna es el valor tot_ticks_old.
En los datos recopilados por segunda vez, el número en la cuarta columna es el valor rd_ios_new, el número en la octava columna es el valor wr_ios_new y el número en la decimotercera columna es el valor tot_ticks_new.
En este caso, el valor de svctm es el siguiente:
(19571460 - 19569526)/(1101553 + 28747977 - 1101553 - 28744856) = 0.6197
Atributo
ID de alarma |
Severidad de alarma |
Borrar automáticamente |
---|---|---|
12180 |
Grave |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
DiskName |
Especifica el disco para el que se genera la alarma. |
Impacto en el sistema
Un uso de E/S continuamente alto puede afectar negativamente a las operaciones de servicio y dar como resultado la pérdida de servicio.
Causas posibles
El disco está envejecido.
Procedimiento
Reemplazar el disco.
- Inicie sesión en FusionInsight Manager y elija O&M > Alarm > Alarms.
- Vea la información detallada sobre la alarma. Compruebe los valores de HostName y DiskName en la información de ubicación para obtener la información sobre el disco defectuoso para el que se informa la alarma.
- Reemplace el disco duro.
- Verifique si la alarma se ha borrado.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 5.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Seleccione OMS para Service y haga clic en OK.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna