Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-12180 E/S de disco suspendido

Descripción

  • En el caso de HDDs, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
    • El sistema recopila datos cada 3 segundos y detecta que el valor svctm supera los 6 segundos durante 10 periodos consecutivos en 30 segundos.
    • El sistema recoge datos cada 3 segundos, y detecta que el valor avgqu-sz es mayor que 0, el IOPS o ancho de banda es 0, y el valor ioutil es mayor que 99% durante 10 períodos consecutivos en 30 segundos.
  • Para las SSD, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
    • El sistema recopila datos cada 3 segundos y detecta que el valor svctm supera los 2 segundos durante 10 periodos consecutivos en 30 segundos.
    • El sistema recoge datos cada 3 segundos, y detecta que el valor avgqu-sz es mayor que 0, el IOPS o ancho de banda es 0, y el valor ioutil es mayor que 99% durante 10 períodos consecutivos en 30 segundos.

Esta alarma se borra automáticamente cuando las condiciones anteriores no se han cumplido durante 90s.

  • Ejecute el siguiente comando en el sistema operativo para recopilar datos:

    iostat -x -t 1 1

    Los parámetros son los siguientes:

    avgqu-sz indica la profundidad de la cola del disco.

    La suma de r/s y w/s es la IOPS.

    La suma de rkB/s y wkB/s es el ancho de banda.

    %util es el valor ioutil.

  • MRS 3.1.0:

    Ejecute el comando iostat -x -t en el sistema operativo.

  • Calcule svctm de la siguiente manera en versiones posteriores a MRS 3.1.0:

    svctm = (tot_ticks_new - tot_ticks_old)/(rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old)

    Si rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old es 0, entonces svctm es 0.

    Los parámetros se pueden obtener de la siguiente manera:

    El sistema ejecuta el comando cat /proc/diskstats cada 3 segundos para recopilar datos. Por ejemplo:

    En estos dos comandos:

    En los datos recopilados por primera vez, el número en la cuarta columna es el valor rd_ios_old, el número en la octava columna es el valor wr_ios_old y el número en la decimotercera columna es el valor tot_ticks_old.

    En los datos recopilados por segunda vez, el número en la cuarta columna es el valor rd_ios_new, el número en la octava columna es el valor wr_ios_new y el número en la decimotercera columna es el valor tot_ticks_new.

    En este caso, el valor de svctm es el siguiente:

    (19571460 - 19569526)/(1101553 + 28747977 - 1101553 - 28744856) = 0.6197

Atributo

ID de alarma

Severidad de alarma

Borrar automáticamente

12180

Grave

Parámetros

Nombre

Significado

Source

Especifica el clúster o sistema para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

DiskName

Especifica el disco para el que se genera la alarma.

Impacto en el sistema

Un uso de E/S continuamente alto puede afectar negativamente a las operaciones de servicio y dar como resultado la pérdida de servicio.

Causas posibles

El disco está envejecido.

Procedimiento

Reemplazar el disco.

  1. Inicie sesión en FusionInsight Manager y elija O&M > Alarm > Alarms.
  2. Vea la información detallada sobre la alarma. Compruebe los valores de HostName y DiskName en la información de ubicación para obtener la información sobre el disco defectuoso para el que se informa la alarma.
  3. Reemplace el disco duro.
  4. Verifique si la alarma se ha borrado.

    • En caso afirmativo, no es necesario hacer nada más.
    • Si no, vaya a 5.

Recopilar información de fallas.

  1. En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
  2. Seleccione OMS para Service y haga clic en OK.
  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con y proporcione los registros recopilados.

Eliminación de alarmas

Esta alarma se borra automáticamente después de rectificar la falla.

Información relacionada

Ninguna