Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-45428 Excepción de E/S de disco de ClickHouse

Descripción

Esta alarma se genera cuando el módulo de alarma detecta errores EIO o EROFS durante la lectura y escritura de ClickHouse cada 60 segundos.

Atributo

ID de alarma

Severidad de alarma

Borrar automáticamente

45428

Mayor (predeterminado)

No

Parámetros

Nombre

Significado

Source

Especifica el clúster para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Impacto en el sistema

  • ClickHouse no puede leer y escribir datos. Las operaciones INSERT, SELECT y CREATE en las tablas locales pueden ser anormales. Las tablas distribuidas no se ven afectadas.
  • Los servicios se ven afectados y las E/S fallan.

Causas posibles

El disco está envejecido o tiene sectores defectuosos.

Procedimiento

  1. En FusionInsight Manager, seleccione O&M > Alarm > Alarms > ALM-45428 ClickHouse Disk I/O Exception. Compruebe el nombre del rol y la dirección IP del host donde se genera la alarma en Location.
  2. Utilice PuTTY para iniciar sesión en el nodo para el que se genera el error como usuario root.
  3. Ejecute el comando df -h para comprobar el directorio de montaje y encontrar el disco montado en el directorio defectuoso.
  4. Ejecute el comando smartctl -a /dev/sd* para comprobar los discos.

    • Si se muestra SMART Health Status: OK, como se muestra en la siguiente figura, el disco está en buen estado. En este caso, vaya a 6.

    • Si el número siguiente a Elements in grown defect list no es 0, como se muestra en la siguiente figura, el disco puede tener sectores defectuosos. Si se muestra SMART Health Status: FAILURE, el disco se encuentra en el estado de salud secundaria. En este caso, póngase en contacto con el personal.

  5. Una vez rectificada la falla, borre manualmente la alarma en FusionInsight Manager y compruebe si la alarma vuelve a generarse durante la comprobación periódica.

    • En caso afirmativo, vaya a 6.
    • En caso negativo, no se requiere ninguna otra acción.

Recopilar información de fallas.

  1. En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
  2. Expanda la lista desplegable Service y seleccione ClickHouse para el clúster de destino.
  3. Elija el host correspondiente de la lista de hosts.
  4. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 1 hora antes y después del tiempo de generación de alarma, respectivamente. A continuación, haga clic en Download.
  5. Póngase en contacto con y proporcione los registros recopilados.

Eliminación de alarmas

Si la alarma no tiene impacto, borre la alarma manualmente.

Información relacionada

Ninguna