ALM-14016 El uso de memoria directa de DataNode supera el umbral
Descripción
El sistema comprueba el uso de memoria directa de HDFS cada 30 segundos. Esta alarma se genera cuando el uso de memoria directa de las instancias de DataNode excede el umbral (90% de la memoria máxima).
Esta alarma se borra automáticamente cuando el uso de memoria directa es menor que el umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
14016 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral para activar la alarma. |
Impacto en el sistema
Si la memoria directa disponible de las instancias de DataNode es insuficiente, puede producirse un desbordamiento de memoria y el servicio se interrumpe.
Causas posibles
La memoria directa de las instancias de DataNode se utiliza en exceso o la memoria directa se asigna de forma inapropiada.
Procedimiento
Comprobar el uso de la memoria directa.
- En la página Home del FusionInsight Manager, seleccione O&M > Alarms > Alarms. En la página que se muestra, haga clic en la lista desplegable de la fila que contiene ALM-14016 El uso de la memoria directa de DataNode supera el umbral y vea el nombre del rol y la dirección IP de la instancia para la que se genera la alarma en el área Location.
- En la página Home del FusionInsight Manager, seleccione Cluster > HDFS > HDFS. En la página que se muestra, haga clic en la pestaña Instance. En la lista de instancias, seleccione DataNode (dirección IP de la instancia para la que se genera esta alarma). Haga clic en la lista desplegable en la esquina superior derecha del gráfico, elija Customize > Resource y seleccione DataNode Memory para comprobar el uso de la memoria directa.
- Compruebe si la memoria directa utilizada de una instancia de DataNode alcanza el 90% (umbral predeterminado) de la memoria directa máxima asignada a ella.
- En la página Home del FusionInsight Manager, seleccione Cluster > HDFS > HDFS. En la página que se muestra, haga clic en la pestaña Configuration, luego en la subpestaña All Configurations y seleccione DataNode > System. Compruebe si existe -XX:MaxDirectMemorySize en el parámetro GC_OPTS.
- Ajusta el valor de -XX:MaxDirectMemorySize.
- En el GC_OPTS compruebe el valor de -Xmx y compruebe si la memoria del nodo es suficiente.
Puede determinar si la memoria del nodo es suficiente en función del entorno real. Por ejemplo, puede utilizar el siguiente método:
Utilice la dirección IP para iniciar sesión en la instancia para la que se genera la alarma como usuario root y ejecute el comando free -g para comprobar el valor de Mem en la columna free. El valor indica la memoria disponible del nodo. En el siguiente ejemplo, la memoria disponible del nodo es de 4 GB.total used free shared buff/cache available Mem: 112 48 4 10 58 46 ......
Si el valor de Mem es al menos el de -Xmx, la memoria de nodo es suficiente. Si el valor de Mem es menor que el de -Xmx, la memoria de nodo es insuficiente.
- En caso afirmativo, cambie el valor de -XX:MaxDirectMemorySize por el de -Xmx.
- Si no, aumente -XX:MaxDirectMemorySize a un valor no mayor que el de Mem.
- Guarde la configuración y reinicie las instancias DataNode.
- En el GC_OPTS compruebe el valor de -Xmx y compruebe si la memoria del nodo es suficiente.
- Compruebe si existe ALM-14008 El uso de la memoria heap de DataNode supera el umbral.
- En caso afirmativo, rectifique la falla haciendo referencia a ALM-14008 El uso de la memoria heap de DataNode supera el umbral.
- Si no, vaya a 7.
- Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 8.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione DataNode para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna