ALM-14011 El directorio de datos de DataNode no está configurado correctamente
Descripción
El parámetro de DataNode dfs.datanode.data.dir especifica los directorios de datos de DataNode. Esta alarma se genera cuando no se puede crear un directorio de datos configurado, un directorio de datos utiliza el mismo disco que otros directorios críticos del sistema o varios directorios utilizan el mismo disco inmediatamente.
Esta alarma se borra cuando el directorio de datos de DataNode está configurado correctamente y este DataNode para el que se genera la alarma se reinicia.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrado automáticamente |
---|---|---|
14011 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
Si el directorio de datos de DataNode está montado en el directorio raíz o en un directorio crítico, el espacio en disco del directorio raíz o directorio crítico se agotará después de mucho tiempo en ejecución y el sistema estará defectuoso.
Si el directorio de datos de DataNode no está configurado correctamente, el rendimiento de HDFS se deteriorará.
Causas posibles
- No se puede crear el directorio de datos de DataNode.
- El directorio de datos de DataNode utiliza el mismo disco que los directorios críticos, como / o /boot.
- Varios directorios en el directorio de datos de DataNode utilizan el mismo disco.
Procedimiento
Comprobar la causa de la alarma y la información sobre el DataNode para el que se genera la alarma.
- En el portal de FusionInsight Manager, seleccione O&M > Alarm > Alarms. En la lista de alarmas, haga clic en la alarma.
- En el HostName de Location, se obtiene el nombre de host del DataNode para el que se genera la alarma.
Eliminar directorios que no cumplan con el plan de disco del directorio de datos de DataNode.
- Elija Cluster > Name of the desired cluster > Services >HDFS >Instance. En la lista de instancias, haga clic en la instancia DataNode en el nodo para el que se genera la alarma.
- Haga clic en Instance Configurations y vea el valor del parámetro de DataNode dfs.datanode.data.dir.
- Compruebe si todos los directorios de datos de DataNode son coherentes con el plan de disco.
- Modifique el parámetro de DataNode dfs.datanode.data.dir y elimine los directorios incorrectos.
- Elija Cluster > Name of the desired cluster > Services > HDFS > Instance y reinicie la instancia DataNode.
- Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 9.
- Inicie sesión en el DataNode para el que se genera la alarma como root.
- Si la causa de la alarma es "No se puede crear el directorio de datos de DataNode", vaya a 10.
- Si la causa de la alarma es "El directorio de datos de DataNode utiliza el mismo disco con directorios críticos, como / o /boot", Vaya a 17.
- Si la causa de la alarma es "Múltiples directorios en el directorio de datos de DataNode utilizan el mismo disco", vaya a 21.
Comprobar si el directorio de datos de DataNode falla al crearse.
- Ejecute el comando su - omm para cambiar a usuario omm.
- Ejecute el comando ls para comprobar si los directorios existen en el directorio de datos de DataNode.
- Ejecute el comando mkdir data directory para crear el directorio y verifique si el directorio se puede crear correctamente.
- En el portal del FusionInsight Manager, seleccione O&M > Alarm > Alarms para comprobar si existe una alarma ALM-12017 Capacidad de disco insuficiente.
- Ajuste la capacidad del disco y compruebe si la alarma ALM-12017 Capacidad de disco insuficiente está borrado. Para obtener más información, consulte ALM-12017 Capacidad de disco insuficiente.
- Compruebe si el usuario omm tiene el permiso rwx o x de todos los directorios de capa superior del directorio. (Por ejemplo, para /tmp/abc/, el usuario omm tiene el permiso x para el directorio tmp y el permiso rwx para el directorio abc.)
- Ejecute el comando chmod u+rwx path o chmod u+x path como usuario root para asignar el permiso rwx o x de estos directorios al usuario omm. Entonces vaya a 12.
Comprobar si el directorio de datos de DataNode utiliza el mismo disco que otros directorios críticos del sistema.
- Ejecute el comando df para obtener la información de montaje en disco de cada directorio en el directorio de datos de DataNode.
- Compruebe si los directorios montados en el disco son directorios críticos, como / o /boot.
- Cambie el valor del parámetro DataNode dfs.datanode.data.dir y elimine los directorios que utilizan el mismo disco que los directorios críticos.
- Vaya a 24.
Comprobar si varios directorios en el directorio de datos de DataNode utilizan el mismo disco.
- Ejecute el comando df para obtener la información de montaje en disco de cada directorio en el directorio de datos de DataNode. Registre el directorio montado en la salida del comando.
- Modifique los parámetros de nodo de DataNode dfs.DataNode.data.dir para reservar solo un directorio entre los directorios que montaron en el mismo directorio de disco.
- Vaya a 24.
Reiniciar el DataNode y comprobar si la alarma se ha borrado.
- En el portal de FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > HDFS > Instance > y reinicie la instancia DataNode
- Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 26.
Recopilar información de fallas.
- En el portal del FusionInsight Manager, elija O&M > Log > Download.
- Seleccione HDFS en el clúster requerido en el Service.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna