ALM-45428 Excepción de E/S de disco de ClickHouse
Descripción
Esta alarma se genera cuando el módulo de alarma detecta errores EIO o EROFS durante la lectura y escritura de ClickHouse cada 60 segundos.
Atributo
ID de alarma |
Severidad de alarma |
Borrar automáticamente |
---|---|---|
45428 |
Mayor (predeterminado) |
No |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
- ClickHouse no puede leer y escribir datos. Las operaciones INSERT, SELECT y CREATE en las tablas locales pueden ser anormales. Las tablas distribuidas no se ven afectadas.
- Los servicios se ven afectados y las E/S fallan.
Causas posibles
El disco está envejecido o tiene sectores defectuosos.
Procedimiento
- En FusionInsight Manager, seleccione O&M > Alarm > Alarms > ALM-45428 ClickHouse Disk I/O Exception. Compruebe el nombre del rol y la dirección IP del host donde se genera la alarma en Location.
- Utilice PuTTY para iniciar sesión en el nodo para el que se genera el error como usuario root.
- Ejecute el comando df -h para comprobar el directorio de montaje y encontrar el disco montado en el directorio defectuoso.
- Ejecute el comando smartctl -a /dev/sd* para comprobar los discos.
- Si se muestra SMART Health Status: OK, como se muestra en la siguiente figura, el disco está en buen estado. En este caso, vaya a 6.
- Si el número siguiente a Elements in grown defect list no es 0, como se muestra en la siguiente figura, el disco puede tener sectores defectuosos. Si se muestra SMART Health Status: FAILURE, el disco se encuentra en el estado de salud secundaria. En este caso, póngase en contacto con el personal.
- Si se muestra SMART Health Status: OK, como se muestra en la siguiente figura, el disco está en buen estado. En este caso, vaya a 6.
- Una vez rectificada la falla, borre manualmente la alarma en FusionInsight Manager y compruebe si la alarma vuelve a generarse durante la comprobación periódica.
- En caso afirmativo, vaya a 6.
- En caso negativo, no se requiere ninguna otra acción.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione ClickHouse para el clúster de destino.
- Elija el host correspondiente de la lista de hosts.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 1 hora antes y después del tiempo de generación de alarma, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Si la alarma no tiene impacto, borre la alarma manualmente.
Información relacionada
Ninguna