Copia de datos
Según las regiones y la conectividad de red entre el clúster de origen y el clúster de destino, los escenarios de copia de datos se clasifican de la siguiente manera:
La misma región
Si el clúster de origen y el clúster de destino están en la misma región, siga las instrucciones en Establecimiento de un canal de transmisión de datos para configurar la red y configurar un canal de transmisión de red. Utilice la herramienta DistCp para ejecutar el siguiente comando para copiar los archivos de datos HDFS, HBase, Hive y los archivos de copia de respaldo de metadatos Hive del clúster de origen al clúster de destino.
$HADOOP_HOME/bin/hadoop distcp <src> <dist> -p
A continuación se proporciona una descripción de los parámetros del comando anterior.
- $HADOOP_HOME: directorio de instalación del cliente Hadoop en el clúster de destino
- <src>: directorio de HDFS del clúster de origen
- <dist>: directorio de HDFS del clúster de destino
Diferentes regiones
Si el clúster de origen y el clúster de destino están en diferentes regiones, utilice la herramienta DistCp para copiar los datos del clúster de origen en OBS y utilice la función de replicación entre regiones de OBS para copiar los datos en OBS en la región donde reside el clúster de destino. Para obtener más información, consulte Replicación entre regiones. Si se utiliza DistCp, la información de permiso, propietario y grupo no se puede establecer para los archivos en OBS. En este caso, debe exportar y copiar los metadatos de HDFS mientras exporta datos para evitar la pérdida de información de propiedades del archivo HDFS.
Migración de datos desde un clúster sin conexión a una nube
Puede utilizar las siguientes formas de migrar datos desde un clúster sin conexión a la nube.
- Direct Connect
Cree un Direct Connect entre el clúster de origen y el clúster de destino, habilite la red entre el gateway de egress del clúster sin conexión y la VPC en línea y use DistCp para copiar los datos mediante referencia a La misma región.