ALM-45428 Excepción de E/S de disco de ClickHouse
Descripción
Esta alarma se genera cuando el módulo de alarma detecta errores EIO o EROFS durante la lectura y escritura de ClickHouse cada 60 segundos.
Atributo
| 
        ID de alarma  | 
      
        Severidad de alarma  | 
      
        Borrar automáticamente  | 
     
|---|---|---|
| 
        45428  | 
      
        Mayor (predeterminado)  | 
      
        No  | 
     
Parámetros
| 
        Nombre  | 
      
        Significado  | 
     
|---|---|
| 
        Source  | 
      
        Especifica el clúster para el que se genera la alarma.  | 
     
| 
        ServiceName  | 
      
        Especifica el servicio para el que se genera la alarma.  | 
     
| 
        RoleName  | 
      
        Especifica el rol para el que se genera la alarma.  | 
     
| 
        HostName  | 
      
        Especifica el host para el que se genera la alarma.  | 
     
Impacto en el sistema
- ClickHouse no puede leer y escribir datos. Las operaciones INSERT, SELECT y CREATE en las tablas locales pueden ser anormales. Las tablas distribuidas no se ven afectadas.
 - Los servicios se ven afectados y las E/S fallan.
 
Causas posibles
El disco está envejecido o tiene sectores defectuosos.
Procedimiento
- En FusionInsight Manager, seleccione O&M > Alarm > Alarms > ALM-45428 ClickHouse Disk I/O Exception. Compruebe el nombre del rol y la dirección IP del host donde se genera la alarma en Location.
 - Utilice PuTTY para iniciar sesión en el nodo para el que se genera el error como usuario root.
 - Ejecute el comando df -h para comprobar el directorio de montaje y encontrar el disco montado en el directorio defectuoso.
 - Ejecute el comando smartctl -a /dev/sd* para comprobar los discos.
    
    
- Si se muestra SMART Health Status: OK, como se muestra en la siguiente figura, el disco está en buen estado. En este caso, vaya a 6.
      

 - Si el número siguiente a Elements in grown defect list no es 0, como se muestra en la siguiente figura, el disco puede tener sectores defectuosos. Si se muestra SMART Health Status: FAILURE, el disco se encuentra en el estado de salud secundaria. En este caso, póngase en contacto con el personal.
      

 
 - Si se muestra SMART Health Status: OK, como se muestra en la siguiente figura, el disco está en buen estado. En este caso, vaya a 6.
      
 - Una vez rectificada la falla, borre manualmente la alarma en FusionInsight Manager y compruebe si la alarma vuelve a generarse durante la comprobación periódica.
    
    
- En caso afirmativo, vaya a 6.
 - En caso negativo, no se requiere ninguna otra acción.
 
 
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
 - Expanda la lista desplegable Service y seleccione ClickHouse para el clúster de destino.
 - Elija el host correspondiente de la lista de hosts.
 - Haga clic en 
 en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 1 hora antes y después del tiempo de generación de alarma, respectivamente. A continuación, haga clic en Download. - Póngase en contacto con y proporcione los registros recopilados.
 
Eliminación de alarmas
Si la alarma no tiene impacto, borre la alarma manualmente.
Información relacionada
Ninguna