Carga de datos
En la página
, puede crear y eliminar directorios HDFS, así como importar, exportar y eliminar archivos de un clúster de análisis.Para los clústeres con autenticación Kerberos habilitada, sincronice a los usuarios de IAM antes de realizar operaciones en la página Files. En la página de detalles del clúster, haga clic en Dashboard y haga clic en Synchronize a la derecha de IAM User Sync para sincronizar usuarios de IAM.
Contexto
Los clústeres MRS generalmente procesan datos de OBS o HDFS. OBS le proporciona las capacidades de almacenamiento de datos que son masivas, seguras, confiables y rentables. MRS puede procesar datos directamente en OBS. Puede examinar, gestionar y usar datos tanto en la consola de gestión como en el cliente OBS. Si necesita importar datos OBS en el sistema HDFS del clúster para su procesamiento, realice los pasos de esta sección.
Importación de datos de OBS a HDFS
Actualmente, MRS solo admite la importación de datos de OBS a HDFS. La tasa de carga de archivos disminuye con el aumento del tamaño del archivo. Este modo se aplica a escenarios en los que el volumen de datos es pequeño.
Puede realizar los siguientes pasos para importar archivos y directorios:
- Inicie sesión en la consola de MRS.
- Seleccione Clusters > Active Clusters y haga clic en el nombre del clúster de destino para ingresar a la página de detalles del clúster.
- Haga clic en Files para ir a la página de gestión de archivos.
- Seleccione HDFS File List.
- Vaya al directorio de almacenamiento de datos, por ejemplo, bd_app1.
El directorio bd_app1 es solo un ejemplo. Puede utilizar cualquier directorio de la página o crear uno nuevo.
Los requisitos para crear una carpeta son los siguientes:
- El nombre de la carpeta contiene un máximo de 255 caracteres.
- El nombre de la carpeta no puede estar vacío.
- El nombre de la carpeta no puede contener las siguientes characters especiales: /:*?"<>|\;&,'`!{}[]$%+
- El valor no puede comenzar ni finalizar con un período (.).
- Los espacios al principio y al final se ignoran.
- Haga clic en Import Data y configure las rutas de HDFS y OBS correctamente. Cuando configure la ruta de acceso OBS o HDFS, haga clic en Browse, seleccione un directorio de archivo y haga clic en Yes.
Figura 1 Importación de datos de OBS a HDFS
- Ruta de OBS
- La ruta debe comenzar con obs://.
- Los archivos o programas cifrados por KMS no se pueden importar.
- No se puede importar una carpeta vacía.
- El directorio y el nombre del archivo pueden contener letras, dígitos, guiones (-) y guiones bajos (_), pero no pueden contener caracteres especiales ;|&>,<'$*?\
- El directorio y el nombre de archivo no pueden comenzar o terminar con un espacio, pero pueden contener espacios entre ellos.
- La ruta de acceso completa de OBS contiene un máximo de 255 caracteres.
- Ruta de HDFS
- La ruta comienza por /user de forma predeterminada.
- El directorio y el nombre del archivo pueden contener letras, dígitos, guiones (-) y guiones bajos (_), pero no pueden contener los siguientes caracteres especiales: ;|&>,<'$*?\:
- El directorio y el nombre de archivo no pueden comenzar o terminar con un espacio, pero pueden contener espacios entre ellos.
- La ruta de acceso completa de HDFS contiene un máximo de 255 caracteres.
- Ruta de OBS
- Haga clic en OK.
Puede ver el progreso de la carga de archivos en la página File Operation Records. MRS procesa la operación de importación de datos como un trabajo de DistCp. También puede comprobar si el trabajo DistCp se ejecuta correctamente en la página Jobs.
Exportación de datos de HDFS a OBS
Después de completar el análisis de datos y la computación, puede almacenar los datos en el HDFS o exportarlos a OBS.
Puede realizar los siguientes pasos para exportar archivos y directorios:
- Inicie sesión en la consola de MRS.
- Seleccione Clusters > Active Clusters y haga clic en el nombre del clúster de destino para ingresar a la página de detalles del clúster.
- Haga clic en Files para ir a la página de gestión de archivos.
- Seleccione HDFS File List.
- Vaya al directorio de almacenamiento de datos, por ejemplo, bd_app1.
- Haga clic en Export Data y configure las rutas OBS y HDFS. Cuando configure la ruta de acceso OBS o HDFS, haga clic en Browse, seleccione un directorio de archivo y haga clic en Yes.
Figura 2 Exportación de datos de HDFS a OBS
- Ruta de OBS
- La ruta debe comenzar con obs://.
- El directorio y el nombre del archivo pueden contener letras, dígitos, guiones (-) y guiones bajos (_), pero no pueden contener caracteres especiales ;|&>,<'$*?\
- El directorio y el nombre de archivo no pueden comenzar o terminar con un espacio, pero pueden contener espacios entre ellos.
- La ruta de acceso completa de OBS contiene un máximo de 255 caracteres.
- Ruta de HDFS
- La ruta comienza por /user de forma predeterminada.
- El directorio y el nombre del archivo pueden contener letras, dígitos, guiones (-) y guiones bajos (_), pero no pueden contener los siguientes caracteres especiales: ;|&>,<'$*?\:
- El directorio y el nombre de archivo no pueden comenzar o terminar con un espacio, pero pueden contener espacios entre ellos.
- La ruta de acceso completa de HDFS contiene un máximo de 255 caracteres.
Cuando se exporta una carpeta a OBS, se agrega un archivo de etiquetas denominado folder name_$folder$ a la ruta de acceso de OBS. Asegúrese de que la carpeta exportada no está vacía. Si la carpeta exportada está vacía, OBS no puede mostrarla y solo genera un archivo denominado folder name_$folder$.
- Ruta de OBS
- Haga clic en OK.
Puede ver el progreso de la carga de archivos en la página File Operation Records. MRS procesa la operación de exportación de datos como un trabajo DistCp. También puede comprobar si el trabajo DistCp se ejecuta correctamente en la página Jobs.