ALM-45425 Servicio ClickHouse no disponible
Descripción
El módulo de alarma comprueba el estado de la instancia ClickHouse cada 60 segundos. Esta alarma se genera cuando el módulo de alarma detecta que todas las instancias de ClickHouse son anormales.
Esta alarma se borra cuando el sistema detecta que se restaura cualquier instancia de ClickHouse y se borra la alarma.
Atributo
ID de alarma |
Severidad de alarma |
Borrar automáticamente |
---|---|---|
45425 |
Crítica |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
El servicio ClickHouse es anormal. No puede usar FusionInsight Manager para realizar operaciones de clúster en el servicio ClickHouse. La función de servicio ClickHouse no está disponible.
Causas posibles
La información de configuración del archivo metrika.xml del directorio de configuración de componentes del nodo de instancia ClickHouse defectuoso no es coherente con la de la instancia ClickHouse correspondiente en ZooKeeper.
Procedimiento
Compruebe si la configuración en metrika.xml de la instancia ClickHouse es correcta.
- Inicie sesión en FusionInsight Manager, elija Cluster > Services > ClickHouse > Instance y localice la instancia anormal de ClickHouse en función de la información de alarma.
- Inicie sesión en el host donde el servicio ClickHouse es anormal y haga ping a la dirección IP de otro nodo de instancia de ClickHouse normal para comprobar si la conexión de red es normal.
- En caso afirmativo, vaya a 3.
- Si no, póngase en contacto con el administrador de red para reparar la red.
- Elija Cluster > Services > ClickHouse > Instance, haga clic en el nombre de instancia anormal en la columna Role, haga clic en Configurations, busque macros.id en el cuadro de búsqueda y busque el valor de macros.id de la instancia actual.
- Inicie sesión en el host donde se encuentra el cliente ZooKeeper e inicie sesión en el cliente ZooKeeper.
Cambie al directorio de instalación del cliente.
Ejemplo: cd /opt/client
Ejecute el siguiente comando para configurar las variables de entorno:
source bigdata_env
Ejecute el siguiente comando para autenticar al usuario (omita este paso en el modo común):
kinit Component service user
Ejecute el siguiente comando para iniciar sesión en la herramienta de cliente:
zkCli.sh -server service IP address of the node where the ZooKeeper role instance locates:client port
- Ejecute el siguiente comando para comprobar si se puede obtener la información de topología de clúster ClickHouse.
get /clickhouse/config/value of macros.id in 3/metrika.xml
- Inicie sesión en el host donde la instancia ClickHouse es anormal y vaya al directorio de configuración de la instancia ClickHouse.
cd ${BIGDATA_HOME}/FusionInsight_ClickHouse_Version/x_x_ClickHouseServer/etc
cat metrika.xml
- Compruebe si la información de topología de clúster de ZooKeeper obtenida en 5 es la misma que en el archivo metrika.xml del directorio de configuración de componentes en 6.
- En FusionInsight Manager, elija Cluster > Services > ClickHouse, haga clic en More, y seleccione Synchronize Configuration. A continuación, compruebe si el estado del servicio es normal y si la alarma se borra 5 minutos después.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 9.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione ClickHouse para el clúster de destino.
- Elija el host correspondiente de la lista de hosts.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 1 hora antes y después del tiempo de generación de alarma, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna