Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Referencia de alarma (aplicable a MRS 3.x)/ ALM-12033 Falla de disco lento

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-12033 Falla de disco lento

Descripción

En el caso de HDDs, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
- El sistema ejecuta el comando iostat cada 3 segundos y detecta que el valor svctm supera los 1000 ms durante 7 períodos consecutivos en 30 segundos.
- El sistema ejecuta el comando iostat cada 3 segundos y detecta que más del 50% de las E/S tardan más de 150 ms dentro de 300s.
Para las SSD, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
- El sistema ejecuta el comando iostat cada 3 segundos y detecta que el valor svctm supera los 1000 ms durante 10 períodos consecutivos en 30 segundos.
- El sistema ejecuta el comando iostat cada 3 segundos y detecta que más del 60% de las E/S tardan más de 20 ms en 300 segundos.

Esta alarma se borra automáticamente cuando las condiciones anteriores no se han cumplido durante 15 minutos.

El valor svctm se puede obtener de la siguiente manera:

MRS 3.1.0:
Ejecute el comando iostat -x -t en el sistema operativo.
Versiones posteriores a MRS 3.1.0:

svctm = (tot_ticks_new - tot_ticks_old)/(rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old)

Si rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old es el nombre de 0, entonces svctm es el nombre de 0.

Los parámetros se pueden obtener de la siguiente manera:

El sistema ejecuta el comando cat /proc/diskstats cada 3 segundos para recopilar datos. Por ejemplo:

En estos dos comandos:

En los datos recopilados por primera vez, el número en la cuarta columna es el valor rd_ios_old, el número en la octava columna es el valor wr_ios_old y el número en la decimotercera columna es el valor tot_ticks_old.

En los datos recopilados por segunda vez, el número en la cuarta columna es el valor rd_ios_new, el número en la octava columna es el valor wr_ios_new y el número en la decimotercera columna es el valor tot_ticks_new.

En este caso, el valor de svctm es el siguiente:

(19571460 - 19569526)/(1101553 + 28747977 - 1101553 - 28744856) = 0.6197

Atributo

ID de alarma	Gravedad de la alarma	Borrar automáticamente
12033	Leves	Sí

Parámetros

Nombre	Significado
Source	Especifica el clúster o sistema para el que se genera la alarma.
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.
DiskName	Especifica el disco para el que se genera la alarma.

Impacto en el sistema

El rendimiento del servicio se deteriora, las capacidades de procesamiento de servicios se vuelven deficientes y es posible que los servicios no estén disponibles.

Causas posibles

El disco está envejecido o tiene sectores defectuosos.

Procedimiento

Comprobar el estado de disco.

En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Alarm > Alarms.
Vea la información detallada sobre la alarma. Compruebe los valores de HostName y DiskName en la información de ubicación para obtener la información sobre el disco defectuoso para el que se genera la alarma.
Compruebe si el nodo para el que se genera la alarma se encuentra en un entorno de virtualización.
- En caso afirmativo, vaya a 4.
- Si no, vaya a 7.
Compruebe si el rendimiento de almacenamiento proporcionado por el entorno de virtualización cumple con los requisitos de hardware. A continuación, vaya a 5.
Inicie sesión en el nodo de alarma como usuario root, ejecute el comando df -h y compruebe si la salida del comando contiene el valor del campo DiskName.
- En caso afirmativo, vaya a 7.
- Si no, vaya a 6.
Ejecute el comando lsblk para comprobar si se ha creado la asignación entre el valor de DiskName y el disco.
- En caso afirmativo, vaya a 7. .
- Si no, vaya a 22.
Inicie sesión en el nodo de alarma como usuario root, ejecute el comando lsscsi | grep "/dev/sd[x]" para ver la información del disco y compruebe si se ha configurado RAID.

En el comando /dev/sd[x] indica el nombre del disco obtenido en el archivo 2.

Ejemplo:

lsscsi | grep "/dev/sda"

En la salida del comando, si se muestra ATA, SATA o SAS en la tercera línea, el disco no se ha organizado en un grupo RAID. Si se muestra otra información, se ha configurado RAID.
- En caso afirmativo, vaya a 12.
- Si no, vaya a 8.
Ejecute el comando smartctl -i /dev/sd[x] para comprobar si el hardware admite la herramienta SMART.

Ejemplo:

smartctl -i /dev/sda

En la salida del comando, si se muestra "SMART support is: Enabled", el hardware soporta SMART. Si "Device does not support SMART" o se muestra otra información, el hardware no admite SMART.
- En caso afirmativo, vaya a 9.
- Si no, vaya a 17.
Ejecute el comando smartctl -H --all /dev/sd[x] para comprobar la información básica de SMART y determinar si el disco funciona correctamente.

Ejemplo:

smartctl -H --all /dev/sda

Compruebe el valor de SMART overall-health self-assessment test result en la salida del comando. Si el valor es de FAILED, el disco está defectuoso y necesita ser reemplazado. Si el valor es PASSED, compruebe el valor de Reallocated_Sector_Ct o Elements in grown defect list. Si el valor es mayor que 100, el disco está defectuoso y necesita ser reemplazado.
- En caso afirmativo, vaya a 10.
- Si no, vaya a 18.
Ejecute el comando smartctl -l error -H /dev/sd[x] para comprobar Glist del disco y determinar si el disco es normal.

Ejemplo:

smartctl -l error -H /dev/sda

Compruebe la columna Command/Feature_name en la salida del comando. Si se muestra READ SECTOR(S) o WRITE SECTOR(S), el disco tiene sectores defectuosos. Si se producen otros errores, la placa de circuito de disco está defectuosa. Ambos errores indican que el disco es anormal y necesita ser reemplazado.

Si se muestra "No Errors Logged", no existe ningún registro de errores. Puede activar la autocomprobación SMART del disco.
- En caso afirmativo, vaya a 11.
- Si no, vaya a 18.
Ejecute el comando smartctl -t long /dev/sd[x] para activar la autocomprobación SMART del disco. Después de ejecutar el comando, se muestra el tiempo en el que se va a completar la autocomprobación. Una vez completada la autocomprobación, repita 9 y 10 para comprobar si el disco funciona correctamente.

Ejemplo:

smartctl -t long /dev/sda
- En caso afirmativo, vaya a 17.
- Si no, vaya a 18.
Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] para comprobar si el hardware admite SMART.
- En el comando [sat|scsi] indica el tipo de disco. Ambos tipos necesitan ser utilizados.
- [DID] indica la información de intervalo. Las ranuras 0 a 15 necesitan ser utilizadas.
Por ejemplo, ejecute los siguientes comandos en secuencia:

smartctl -d sat+megaraid,0 -H --all /dev/sda

smartctl -d sat+megaraid,1 -H --all /dev/sda

smartctl -d sat+megaraid,2 -H --all /dev/sda

...

Pruebe las combinaciones de comandos de diferentes tipos de disco e información de ranura. Si se muestra "SMART support is: Enabled" en la salida del comando, el disco soporta SMART. Registre los parámetros del tipo de disco y la información de ranura cuando se ejecuta correctamente un comando. Si "SMART support is: Enabled" no se muestra en la salida del comando, el disco no soporta SMART.
- En caso afirmativo, vaya a 13.
- Si no, vaya a 16.
Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] grabado en 12 para comprobar la información básica de SMART y determinar si el disco es normal.

Ejemplo:

smartctl -d sat+megaraid,2 -H --all /dev/sda

Compruebe el valor de SMART overall-health self-assessment test result en la salida del comando. Si el valor es de FAILED, el disco está defectuoso y necesita ser reemplazado. Si el valor es PASSED, compruebe el valor de Reallocated_Sector_Ct o Elements in grown defect list. Si el valor es mayor que 100, el disco está defectuoso y necesita ser reemplazado.
- En caso afirmativo, vaya a 14.
- Si no, vaya a 18.
Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x] para comprobar la lista G del disco y determinar si el disco duro funciona correctamente.

Ejemplo:

smartctl -d sat+megaraid,2 -l error -H /dev/sda

Compruebe la columna Command/Feature_name en la salida del comando. Si se muestra READ SECTOR(S) o WRITE SECTOR(S), el disco tiene sectores defectuosos. Si se producen otros errores, la placa de circuito de disco está defectuosa. Ambos errores indican que el disco es anormal y necesita ser reemplazado.

Si se muestra "No Errors Logged", no existe ningún registro de errores. Puede activar la autocomprobación SMART del disco.
- En caso afirmativo, vaya a 15.
- Si no, vaya a 18.
Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -t long /dev/sd[x] para activar la autocomprobación SMART del disco. Después de ejecutar el comando, se muestra el tiempo en el que se va a completar la autocomprobación. Una vez completada la autocomprobación, repita 13 y 14 para comprobar si el disco funciona correctamente.

Ejemplo:

smartctl -d sat+megaraid,2 -t long /dev/sda
- En caso afirmativo, vaya a 17.
- Si no, vaya a 18.
Si la tarjeta controladora RAID configurada no es compatible con SMART, el disco no es compatible con SMART. En este caso, utilice la herramienta de comprobación proporcionada por el proveedor de tarjeta controladora RAID correspondiente para rectificar la falla. A continuación, vaya a 17.

Por ejemplo, LSI es una herramienta de MegaCLI.
En FusionInsight Manager, seleccione O&M > Alarm > Alarms, haga clic en Clear en la columna Operation de la alarma y compruebe si la alarma se notifica de nuevo en el mismo disco.

Si la alarma se notifica tres veces, cambie el disco.
- En caso afirmativo, vaya a 18.
- En caso negativo, no se requiere ninguna otra acción.

Reemplazar el disco.

En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Alarm > Alarms.
Vea la información detallada sobre la alarma. Compruebe los valores de HostName y DiskName en la información de ubicación para obtener la información sobre el disco defectuoso para el que se informa la alarma.
Reemplace el disco.
Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 22.

Recopilar información de fallas.

En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
Seleccione OMS para Service y haga clic en OK.
Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
Póngase en contacto con y proporcione los registros recopilados.