Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-12033 Falla de disco lento (Para MRS 2.x o anterior)

Descripción

  • En el caso de HDDs, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
    • El sistema ejecuta el comando iostat cada 3 segundos y detecta que el valor svctm supera los 1000 ms durante 10 períodos consecutivos en 30 segundos.
    • El sistema ejecuta el comando iostat cada 3 segundos y detecta que más del 60% de E/S supera los 150 ms en 300 segundos.
  • Para las SSD, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
    • El sistema ejecuta el comando iostat cada 3 segundos y detecta que el valor svctm supera los 1000 ms durante 10 períodos consecutivos en 30 segundos.
    • El sistema ejecuta el comando iostat cada 3 segundos y detecta que más del 60% de E/S supera los 20 ms en 300 segundos.

Esta alarma se borra automáticamente cuando las condiciones anteriores no se han cumplido durante 15 minutos.

El principio de detección de alarma es el siguiente:

En la plataforma Linux, ejecute el comando iostat -x -t 1 para comprobar si la E/S es defectuosa. Específicamente, marque el valor svctm en el cuadro rojo de la siguiente figura.

svctm indica el tiempo de servicio de E/S del disco.

Atributo

ID de alarma

Severidad de la alarma

Borrar automáticamente

12033

Grave

Parámetros

Nombre

Significado

Source

Especifica el clúster o sistema para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

Host Name

Especifica el host para el que se genera la alarma.

DiskName

Especifica el disco para el que se genera la alarma.

Impacto en el sistema

El rendimiento del servicio se deteriora, las capacidades de procesamiento de servicios se vuelven deficientes y es posible que los servicios no estén disponibles.

Causas posibles

El disco está envejecido o tiene sectores defectuosos.

Procedimiento

Comprobar el estado de disco.

  1. En la página de detalles del clúster MRS, haga clic en la alarma de la lista de alarmas en tiempo real. En el área Alarm Details, obtenga información sobre el host para el que se genera la alarma e información sobre el disco defectuoso.
  2. Compruebe si el nodo para el que se genera la alarma se encuentra en un entorno de virtualización.

    • En caso afirmativo, vaya a 3.
    • Si no, vaya a 6.

  3. Compruebe si el rendimiento de almacenamiento proporcionado por el entorno de virtualización cumple con los requisitos de hardware. A continuación, vaya a 4.
  4. Inicie sesión en el nodo de alarma como usuario root, ejecute el comando df -h y compruebe si la salida del comando contiene el valor del campo DiskName.

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 5.

  5. Ejecute el comando lsblk para comprobar si se ha creado la asignación entre el valor de DiskName y el disco.

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 21.

  6. Inicie sesión en el nodo de alarma como usuario root, ejecute el comando lsscsi | grep "/dev/sd[x]" para ver la información del disco y compruebe si se ha configurado RAID.

    En el comando /dev/sd[x] indica el nombre del disco obtenido en el archivo 1.

    Ejemplo:

    lsscsi | grep "/dev/sda"

    En la salida del comando, si se muestra ATA, SATA o SAS en la tercera línea, el disco no se ha organizado en un grupo RAID. Si se muestra otra información, se ha configurado RAID.

    • En caso afirmativo, vaya a 11.
    • Si no, vaya a 7.

  7. Ejecute el comando smartctl -i /dev/sd[x] para comprobar si el hardware admite la herramienta SMART.

    Ejemplo:

    smartctl -i /dev/sda

    En la salida del comando, si se muestra "SMART support is: Enabled", el hardware soporta SMART. Si "Device does not support SMART" o se muestra otra información, el hardware no admite SMART.

    • En caso afirmativo, vaya a 8.
    • Si no, vaya a 16.

  8. Ejecute el comando smartctl -H --all /dev/sd[x] para comprobar la información básica de SMART y determinar si el disco funciona correctamente.

    Ejemplo:

    smartctl -H --all /dev/sda

    Compruebe el valor de SMART overall-health self-assessment test result en la salida del comando. Si el valor es de FAILED, el disco está defectuoso y necesita ser reemplazado. Si el valor es PASSED, compruebe el valor de Reallocated_Sector_Ct o Elements in grown defect list. Si el valor es mayor que 100, el disco está defectuoso y necesita ser reemplazado.

    • En caso afirmativo, vaya a 9.
    • Si no, vaya a 17.

  9. Ejecute el comando smartctl -l error -H /dev/sd[x] para comprobar Glist del disco y determinar si el disco es normal.

    Ejemplo:

    smartctl -l error -H /dev/sda

    Compruebe la columna Command/Featrue_name en la salida del comando. Si se muestra READ SECTOR(S) o WRITE SECTOR(S), el disco tiene sectores defectuosos. Si se producen otros errores, la placa de circuito de disco está defectuosa. Ambos errores indican que el disco es anormal y necesita ser reemplazado.

    Si se muestra "No Errors Logged", no existe ningún registro de errores. Puede realizar el paso 9 para activar la autocomprobación SMART del disco.

    • En caso afirmativo, vaya a 10.
    • Si no, vaya a 17.

  10. Ejecute el comando smartctl -t long /dev/sd[x] para activar la autocomprobación SMART del disco. Después de ejecutar el comando, se muestra el tiempo en el que se va a completar la autocomprobación. Una vez completada la autocomprobación, repita 8 y 9 para comprobar si el disco funciona correctamente.

    Ejemplo:

    smartctl -t long /dev/sda

    • En caso afirmativo, vaya a 16.
    • Si no, vaya a 17.

  11. Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] para comprobar si el hardware admite SMART.

    • En el comando [sat|scsi] indica el tipo de disco. Ambos tipos necesitan ser utilizados.
    • [DID] indica la información de intervalo. Las ranuras 0 a 15 necesitan ser utilizadas.

    Por ejemplo, ejecute los siguientes comandos en secuencia:

    smartctl -d sat+megaraid,0 -H --all /dev/sda

    smartctl -d sat+megaraid,1 -H --all /dev/sda

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    ...

    Pruebe las combinaciones de comandos de diferentes tipos de disco e información de ranura. Si se muestra "SMART support is: Enabled" en la salida del comando, el disco soporta SMART. Registre los parámetros del tipo de disco y la información de ranura cuando se ejecuta correctamente un comando. Si "SMART support is: Enabled" no se muestra en la salida del comando, el disco no soporta SMART.

    • En caso afirmativo, vaya a 12.
    • Si no, vaya a 15.

  12. Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] grabado en 11 para comprobar la información básica de SMART y determinar si el disco es normal.

    Ejemplo:

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    Compruebe el valor de SMART overall-health self-assessment test result en la salida del comando. Si el valor es de FAILED, el disco está defectuoso y necesita ser reemplazado. Si el valor es PASSED, compruebe el valor de Reallocated_Sector_Ct o Elements in grown defect list. Si el valor es mayor que 100, el disco está defectuoso y necesita ser reemplazado.

    • En caso afirmativo, vaya a 13.
    • Si no, vaya a 17.

  13. Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x] para comprobar la lista G del disco y determinar si el disco duro funciona correctamente.

    Ejemplo:

    smartctl -d sat+megaraid,2 -l error -H /dev/sda

    Compruebe la columna Command/Featrue_name en la salida del comando. Si se muestra READ SECTOR(S) o WRITE SECTOR(S), el disco tiene sectores defectuosos. Si se producen otros errores, la placa de circuito de disco está defectuosa. Ambos errores indican que el disco es anormal y necesita ser reemplazado.

    Si se muestra "No Errors Logged", no existe ningún registro de errores. Puede realizar el paso 9 para activar la autocomprobación SMART del disco.

    • En caso afirmativo, vaya a 14.
    • Si no, vaya a 17.

  14. Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -t long /dev/sd[x] para activar la autocomprobación SMART del disco. Después de ejecutar el comando, se muestra el tiempo en el que se va a completar la autocomprobación. Una vez completada la autocomprobación, repita 12 y 13 para comprobar si el disco funciona correctamente.

    Ejemplo:

    smartctl -d sat+megaraid,2 -t long /dev/sda

    • En caso afirmativo, vaya a 16.
    • Si no, vaya a 17.

  15. Si la tarjeta controladora RAID configurada no es compatible con SMART, el disco no es compatible con SMART. En este caso, utilice la herramienta de comprobación proporcionada por el proveedor de tarjeta controladora RAID correspondiente para rectificar la falla. Entonces vaya a 16.

    Por ejemplo, LSI es una herramienta de MegaCLI.

  16. En la página de detalles de alarma, haga clic en Clear Alarm. Compruebe si la alarma se notifica de nuevo en el mismo disco.

    Si la alarma se notifica más de tres veces, cambie el disco.

    • En caso afirmativo, vaya a 17.
    • En caso negativo, no se requiere ninguna otra acción.

Reemplazar el disco.

  1. En MRS Manager, seleccione Alarms.
  2. Vea la información detallada sobre la alarma. Compruebe los valores de HostName y DiskName en la información de ubicación para obtener la información sobre el disco defectuoso para el que se informa la alarma.
  3. Reemplace un disco.
  4. Verifique si la alarma se ha borrado.

    • En caso afirmativo, no es necesario hacer nada más.
    • Si no, vaya a 21.

Recopilar información de fallas.

  1. En MRS Manager, elija System > Export Log.
  2. Póngase en contacto con el personal de O&M y envíe los registros recopilados.

Eliminación de alarmas

Esta alarma se borra automáticamente después de rectificar la falla.

Información relacionada

Ninguna