更新时间:2024-08-30 GMT+08:00

上传存量数据

  1. 使用华为云专线,搭建用户本地数据中心与华为云VPC之间的专属连接通道。
  2. 创建OBS桶,并记录OBS的访问域名、端口和AK/SK。
  3. 创建CDM集群。

    DataArts Studio实例中已经包含一个CDM集群(试用版除外),如果该集群已经满足需求,您无需再购买数据集成增量包,可以跳过这部分内容。

    如果您需要再创建新的CDM集群,请参考购买批量数据迁移增量包,完成购买数据集成增量包的操作。

    • 实例类型:选择“cdm.xlarge”,该实例类型适用大部分迁移场景。
    • 虚拟私有云:CDM集群的VPC,选择用户本地数据中心与云专线连通的VPC。
    • 子网、安全组:这里没有要求,分别任选一个即可。
  4. 集群创建完成后,选择集群后面的作业管理 > 连接管理 > 新建连接,进入选择连接类型的界面,如图1所示。
    图1 选择连接器类型
  5. 连接H公司本地的Apache Hadoop HDFS文件系统时,连接类型选择“Apache HDFS”,然后单击“下一步”。
    图2 创建HDFS连接
    • 名称:用户自定义连接名称,例如“hdfs_link”
    • URI:配置为H公司HDFS文件系统的Namenode URI地址。
    • 认证类型:安全模式Hadoop选择KERBEROS鉴权,通过获取客户端的principal和keytab文件进行认证。
    • Principal、Keytab文件:用于认证的账号Principal和keytab文件,可以联系Hadoop管理员获取。
  6. 单击“保存”,CDM会自动测试连接是否可用。
    • 如果可用则提示保存成功,系统自动跳转到连接管理界面。
    • 如果测试不可用,需要重新检查连接参数是否配置正确,或者H公司防火墙是否允许CDM集群的EIP访问数据源。
  7. 单击“新建连接”来创建OBS连接,连接类型选择“对象存储服务(OBS)”后单击“下一步”,配置OBS连接参数,如图3所示。
    图3 创建OBS连接
    • 名称:用户自定义连接名称,例如“obslink”
    • OBS终端节点:配置为OBS的域名或IP地址,例如“obs.myhuaweicloud.com”
    • 端口:OBS服务器的端口,例如“443”
    • OBS桶类型:根据实际情况下拉选择即可。
    • 访问标识(AK)、密钥(SK):访问OBS数据库的AK、SK。可在管理控制台单击用户名,选择我的凭证 > 访问密钥后获取。
  8. 单击“保存”,系统回到连接管理界面。
  9. 选择表/文件迁移 > 新建作业,创建迁移H公司贸易数据到OBS的作业, 如图4所示。
    图4 创建作业
    • 作业名称:用户自定义作业名称。
    • 源端作业配置:
      • 源连接名称:选择5创建的HDFS连接“hdfs_link”
      • 源目录或文件:配置为H公司贸易数据在本地的存储路径,可以是一个目录,也可以是单独一个文件。这里配置为目录,CDM会迁移整个目录下的文件到OBS。
      • 文件格式:选择“二进制格式”。这里的文件格式是指CDM传输数据时所用的格式,不会改变原始文件自身的格式。迁移文件到文件时,推荐使用“二进制格式”,传输的效率和性能都最优。
    • 目的端作业配置:
      • 目的连接名称:选择7创建的OBS连接“obslink”
      • 桶名、写入目录:在OBS中储存贸易数据的路径,CDM会将文件写入到该路径下。
      • 文件格式:与源端一样,选择“二进制格式”,原始文件自身的格式不会改变。
      • 重复文件处理方式:这里选择“跳过重复文件”。只有当源端和目的端存在文件名、文件大小都相同的文件时,CDM才会判定该文件为重复文件,这时CDM将跳过该文件,不迁移到OBS。
  10. 单击“下一步”配置任务参数,迁移存量数据时,参数配置保持默认即可。
  11. 单击“保存并运行”,进入作业管理界面,查看作业执行进度和结果。
  12. 作业执行成功之后,单击作业后面的“历史记录”查看作业的写入行数、读取行数、写入字节、写入文件数和执行日志。