ALM-14011 El directorio de datos de HDFS DataNode no está configurado correctamente (Para MRS 2.x o anterior)
Descripción
El parámetro dfs.datanode.data.dir especifica el directorio de datos de DataNode. Esta alarma se genera en cualquiera de los siguientes escenarios:
- No se puede crear un directorio de datos configurado.
- Un directorio de datos utiliza el mismo disco que otros directorios críticos del sistema.
- Varios directorios utilizan el mismo disco.
Esta alarma se borra cuando el directorio de datos DataNode está configurado correctamente y este DataNode se reinicia.
Atributo
ID de alarma |
Severidad de la alarma |
Borrar automáticamente |
---|---|---|
14011 |
Grave |
Sí |
Parámetros
Parámetro |
Descripción |
---|---|
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
Si el directorio de datos de DataNode está montado en directorios críticos como el directorio raíz, el espacio en disco del directorio raíz se utilizará después de ejecutarse durante mucho tiempo. Esto provoca una falla del sistema.
Si el directorio de datos de DataNode no está configurado correctamente, el rendimiento de HDFS se deteriorará.
Causas posibles
- No se puede crear el directorio de datos de DataNode.
- El directorio de datos DataNode utiliza el mismo disco que los directorios críticos, como / o /boot.
- Varios directorios en el directorio de datos de DataNode utilizan el mismo disco.
Procedimiento
- Compruebe la causa de la alarma y la información sobre el DataNode para el que se genera la alarma.
- En la página de detalles del clúster MRS, haga clic en Alarms. En la lista de alarmas, haga clic en la alarma.
- En el área Alarm Details, vea Alarm Cause para obtener la causa de la alarma. En el HostName de Location, se obtiene el nombre de host del DataNode para el que se genera la alarma.
- Elimine los directorios que no cumplan con el plan de disco del directorio de datos de DataNode.
- Elija Components >HDFS >Instances. En la lista de instancias, haga clic en la instancia DataNode en el nodo para el que se genera la alarma.
- Haga clic en Instance Configuration y vea el valor del parámetro DataNode dfs.datanode.data.dir.
- Compruebe si todos los directorios de datos de DataNode son coherentes con el plan de disco.
- Modifique el parámetro de DataNode dfs.datanode.data.dir y elimine los directorios incorrectos.
- Elija Components > HDFS > Instances para reiniciar la instancia de DataNode.
- Verifique si la alarma se ha borrado.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 2.g.
- Inicie sesión en el DataNode para el que se genera la alarma.
- Si la causa de la alarma es "The DataNode data directory fails to be created", vaya a 3.a.
- Si la causa de la alarma es "The DataNode data directory uses the same disk as critical directories, such / or /boot", vaya a 4.a.
- Si la causa de la alarma es "Multiple directories in the DataNode data directory use the same disk", vaya a 5.a.
- Compruebe si el directorio de datos de DataNode no se puede crear.
- Ejecute los siguientes comandos para cambiar el usuario:
su - omm
- Ejecute el comando ls para comprobar si los directorios existen en el directorio de datos de DataNode.
- Ejecute el comando mkdir data directory para crear un directorio y verifique si el directorio se ha creado correctamente.
- Haga clic en Alarms para comprobar si existe una alarma ALM-12017 Capacidad de disco insuficiente.
- Ajuste la capacidad del disco y compruebe si la alarma ALM-12017 Capacidad insuficiente del disco está borrada. Para obtener más información, consulte ALM-12017 Capacidad de disco insuficiente (para MRS 2.x o anterior).
- En caso afirmativo, vaya a ALM-12017 Capacidad de disco insuficiente (para MRS 2.x o anterior).
- Si no, vaya a 7.
- Compruebe si el usuario omm tiene el permiso rwx o x de todos los directorios de capa superior del directorio. (Por ejemplo, para /tmp/abc/, el usuario omm tiene el permiso x para el directorio tmp y el permiso rwx para el directorio abc.)
- Ejecute el comando chmod u+rwx path o chmod u+x path como usuario root para agregar el permiso rwx o x a las rutas de acceso. A continuación, vaya a 3.c.
- Ejecute los siguientes comandos para cambiar el usuario:
- Compruebe si el directorio de datos DataNode utiliza el mismo disco que otros directorios críticos del sistema.
- Ejecute el comando df para obtener la información de montaje en disco de cada directorio en el directorio de datos de DataNode.
- Compruebe si los directorios montados en el disco son directorios críticos, como / o /boot.
- Cambie el valor del parámetro DataNode dfs.datanode.data.dir y elimine los directorios que utilizan el mismo disco que los directorios críticos.
- Vaya a 6.a.
- Compruebe si varios directorios del directorio de datos DataNode utilizan el mismo disco.
- Ejecute el comando df para obtener la información de montaje en disco de cada directorio en el directorio de datos de DataNode. Registre el directorio montado en la salida del comando.
- Modifique el parámetro de nodo de DataNode dfs.DataNode.data.dir para reservar uno de los directorios montados en el mismo directorio de disco.
- Vaya a 6.a.
- Reinicie el DataNode y compruebe si la alarma está desactivada.
- Elija Components > HDFS > Instances para reiniciar la instancia de DataNode.
- Verifique si la alarma se ha borrado.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 7.
- Recopilar información de fallas.
- En MRS Manager, seleccione .
- Póngase en contacto con el personal de O&M y envíe los registros recopilados.
Referencia
Ninguna