ALM-12033 Falla de disco lento (Para MRS 2.x o anterior)
Descripción
- En el caso de HDDs, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
- El sistema ejecuta el comando iostat cada 3 segundos y detecta que el valor svctm supera los 1000 ms durante 10 períodos consecutivos en 30 segundos.
- El sistema ejecuta el comando iostat cada 3 segundos y detecta que más del 60% de E/S supera los 150 ms en 300 segundos.
- Para las SSD, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
- El sistema ejecuta el comando iostat cada 3 segundos y detecta que el valor svctm supera los 1000 ms durante 10 períodos consecutivos en 30 segundos.
- El sistema ejecuta el comando iostat cada 3 segundos y detecta que más del 60% de E/S supera los 20 ms en 300 segundos.
Esta alarma se borra automáticamente cuando las condiciones anteriores no se han cumplido durante 15 minutos.
![](https://support.huaweicloud.com/intl/es-us/usermanual-mrs/public_sys-resources/note_3.0-es-us.png)
El principio de detección de alarma es el siguiente:
En la plataforma Linux, ejecute el comando iostat -x -t 1 para comprobar si la E/S es defectuosa. Específicamente, marque el valor svctm en el cuadro rojo de la siguiente figura.
svctm indica el tiempo de servicio de E/S del disco.
Atributo
ID de alarma |
Severidad de la alarma |
Borrar automáticamente |
---|---|---|
12033 |
Grave |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
Host Name |
Especifica el host para el que se genera la alarma. |
DiskName |
Especifica el disco para el que se genera la alarma. |
Impacto en el sistema
El rendimiento del servicio se deteriora, las capacidades de procesamiento de servicios se vuelven deficientes y es posible que los servicios no estén disponibles.
Causas posibles
El disco está envejecido o tiene sectores defectuosos.
Procedimiento
Comprobar el estado de disco.
- En la página de detalles del clúster MRS, haga clic en la alarma de la lista de alarmas en tiempo real. En el área Alarm Details, obtenga información sobre el host para el que se genera la alarma e información sobre el disco defectuoso.
- Compruebe si el nodo para el que se genera la alarma se encuentra en un entorno de virtualización.
- Compruebe si el rendimiento de almacenamiento proporcionado por el entorno de virtualización cumple con los requisitos de hardware. A continuación, vaya a 4.
- Inicie sesión en el nodo de alarma como usuario root, ejecute el comando df -h y compruebe si la salida del comando contiene el valor del campo DiskName.
- Ejecute el comando lsblk para comprobar si se ha creado la asignación entre el valor de DiskName y el disco.
- Inicie sesión en el nodo de alarma como usuario root, ejecute el comando lsscsi | grep "/dev/sd[x]" para ver la información del disco y compruebe si se ha configurado RAID.
Ejemplo:
lsscsi | grep "/dev/sda"
En la salida del comando, si se muestra ATA, SATA o SAS en la tercera línea, el disco no se ha organizado en un grupo RAID. Si se muestra otra información, se ha configurado RAID.
- Ejecute el comando smartctl -i /dev/sd[x] para comprobar si el hardware admite la herramienta SMART.
Ejemplo:
smartctl -i /dev/sda
En la salida del comando, si se muestra "SMART support is: Enabled", el hardware soporta SMART. Si "Device does not support SMART" o se muestra otra información, el hardware no admite SMART.
- Ejecute el comando smartctl -H --all /dev/sd[x] para comprobar la información básica de SMART y determinar si el disco funciona correctamente.
Ejemplo:
smartctl -H --all /dev/sda
Compruebe el valor de SMART overall-health self-assessment test result en la salida del comando. Si el valor es de FAILED, el disco está defectuoso y necesita ser reemplazado. Si el valor es PASSED, compruebe el valor de Reallocated_Sector_Ct o Elements in grown defect list. Si el valor es mayor que 100, el disco está defectuoso y necesita ser reemplazado.
- Ejecute el comando smartctl -l error -H /dev/sd[x] para comprobar Glist del disco y determinar si el disco es normal.
Ejemplo:
smartctl -l error -H /dev/sda
Compruebe la columna Command/Featrue_name en la salida del comando. Si se muestra READ SECTOR(S) o WRITE SECTOR(S), el disco tiene sectores defectuosos. Si se producen otros errores, la placa de circuito de disco está defectuosa. Ambos errores indican que el disco es anormal y necesita ser reemplazado.
Si se muestra "No Errors Logged", no existe ningún registro de errores. Puede realizar el paso 9 para activar la autocomprobación SMART del disco.
- Ejecute el comando smartctl -t long /dev/sd[x] para activar la autocomprobación SMART del disco. Después de ejecutar el comando, se muestra el tiempo en el que se va a completar la autocomprobación. Una vez completada la autocomprobación, repita 8 y 9 para comprobar si el disco funciona correctamente.
Ejemplo:
smartctl -t long /dev/sda
- Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] para comprobar si el hardware admite SMART.
- En el comando [sat|scsi] indica el tipo de disco. Ambos tipos necesitan ser utilizados.
- [DID] indica la información de intervalo. Las ranuras 0 a 15 necesitan ser utilizadas.
Por ejemplo, ejecute los siguientes comandos en secuencia:
smartctl -d sat+megaraid,0 -H --all /dev/sda
smartctl -d sat+megaraid,1 -H --all /dev/sda
smartctl -d sat+megaraid,2 -H --all /dev/sda
...
Pruebe las combinaciones de comandos de diferentes tipos de disco e información de ranura. Si se muestra "SMART support is: Enabled" en la salida del comando, el disco soporta SMART. Registre los parámetros del tipo de disco y la información de ranura cuando se ejecuta correctamente un comando. Si "SMART support is: Enabled" no se muestra en la salida del comando, el disco no soporta SMART.
- Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] grabado en 11 para comprobar la información básica de SMART y determinar si el disco es normal.
Ejemplo:
smartctl -d sat+megaraid,2 -H --all /dev/sda
Compruebe el valor de SMART overall-health self-assessment test result en la salida del comando. Si el valor es de FAILED, el disco está defectuoso y necesita ser reemplazado. Si el valor es PASSED, compruebe el valor de Reallocated_Sector_Ct o Elements in grown defect list. Si el valor es mayor que 100, el disco está defectuoso y necesita ser reemplazado.
- Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x] para comprobar la lista G del disco y determinar si el disco duro funciona correctamente.
Ejemplo:
smartctl -d sat+megaraid,2 -l error -H /dev/sda
Compruebe la columna Command/Featrue_name en la salida del comando. Si se muestra READ SECTOR(S) o WRITE SECTOR(S), el disco tiene sectores defectuosos. Si se producen otros errores, la placa de circuito de disco está defectuosa. Ambos errores indican que el disco es anormal y necesita ser reemplazado.
Si se muestra "No Errors Logged", no existe ningún registro de errores. Puede realizar el paso 9 para activar la autocomprobación SMART del disco.
- Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -t long /dev/sd[x] para activar la autocomprobación SMART del disco. Después de ejecutar el comando, se muestra el tiempo en el que se va a completar la autocomprobación. Una vez completada la autocomprobación, repita 12 y 13 para comprobar si el disco funciona correctamente.
Ejemplo:
smartctl -d sat+megaraid,2 -t long /dev/sda
- Si la tarjeta controladora RAID configurada no es compatible con SMART, el disco no es compatible con SMART. En este caso, utilice la herramienta de comprobación proporcionada por el proveedor de tarjeta controladora RAID correspondiente para rectificar la falla. Entonces vaya a 16.
Por ejemplo, LSI es una herramienta de MegaCLI.
- En la página de detalles de alarma, haga clic en Clear Alarm. Compruebe si la alarma se notifica de nuevo en el mismo disco.
Si la alarma se notifica más de tres veces, cambie el disco.
- En caso afirmativo, vaya a 17.
- En caso negativo, no se requiere ninguna otra acción.
Reemplazar el disco.
- En MRS Manager, seleccione Alarms.
- Vea la información detallada sobre la alarma. Compruebe los valores de HostName y DiskName en la información de ubicación para obtener la información sobre el disco defectuoso para el que se informa la alarma.
- Reemplace un disco.
- Verifique si la alarma se ha borrado.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 21.
Recopilar información de fallas.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna