文档首页 > > 快速入门> 步骤2:数据集成

步骤2:数据集成

分享
更新时间:2020/07/07 GMT+08:00

本章节将介绍如何通过DAYU平台将源数据上传或者接入到云上。

我们将在“数据集成”模块使用批量数据迁移将历史数据迁移上云,步骤如下:

  1. 创建访问密钥(AK和SK)
  2. 新建数据迁移的源连接、目的连接和迁移作业

创建访问密钥(AK和SK)

用户通过客户端或API、SDK等方式访问OBS时,需要通过AK/SK认证方式进行认证鉴权,因此,我们必须先创建访问密钥(AK和SK)。

  • Access Key Id(AK):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。
  • Secret Access Key(SK):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。

在创建访问密钥前,请确保登录控制台的帐号已通过实名认证。创建访问密钥(AK和SK)操作步骤如下:

  1. 登录DAYU控制台
  2. 鼠标移动至右上角用户名,在弹出菜单中单击“我的凭证”

    图1 用户名

  3. 在左侧导航树单击“访问密钥”。

    在访问密钥列表中,可以查看已有的访问密钥ID(即Access Key ID),但是,Secret Access Key只有在新增访问密钥时所下载的密钥文件中才可以获取到。

  4. 单击“新增访问密钥”

    每个用户最多可创建两个有效的访问密钥,如果当前已存在2个访问密钥,只能先删除现有的访问密钥,然后再重新创建。删除时,需要输入当前用户的登录密码、邮箱或手机短信的验证码,验证通过才能成功删除。

  5. 在弹出的对话框中,输入登录密码和对应验证码,然后单击“确定”

    • 用户如果未绑定邮箱和手机,则只需输入登录密码。
    • 用户如果同时绑定了邮箱和手机,可以选择其中一种方式进行验证。

  6. 在弹出的“下载确认”提示框中,单击“确定”保存密钥文件。

    • 为了账号安全性,建议您定期更换并妥善保存访问密钥。

  7. 打开下载下来的“credentials.csv”文件即可获取到访问密钥(Access Key ID和Secret Access Key)。

新建数据迁移的源连接、目的连接和迁移作业

  1. 使用开发者角色的用户,登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“数据集成”,进入数据集成控制台。

    图2 空间管理

  2. 单击左上角的按钮展开左侧导航栏,在导航栏中单击“集群管理”进入“集群管理”页面。然后,在集群列表中找到所需要的集群(集群名称是以DAYU实例名称开头的),单击“作业管理”

    图3 集群管理

    购买的DAYU实例中默认包含一个批量数据迁移集群,如果该集群无法满足需求或已被删除,您也可以参见购买DAYU增量包购买批量数据迁移增量包。

  3. 进入作业管理后,选择“连接管理”

    图4 连接管理

  4. 创建两个连接,一个源连接OBS连接,用于读取存储在OBS上的原始数据,一个目的连接DLI连接,用于将数据写入DLI数据库中。

    单击“新建连接”,进入相应页面后,选择连接器类型“对象存储服务(OBS)”,单击“下一步”,然后如下图所示配置连接参数,单击“保存”

    图5 创建OBS连接

    再次单击“新建连接”,进入相应页面后,选择连接器类型“数据湖探索(DLI)”,单击“下一步”,然后如下图所示配置连接参数,单击“保存”

    图6 创建DLI连接

  5. 如果所创建的连接器类型是DLI连接,还需要在DLI服务中创建一个队列。数据迁移作业需要用到队列,而DLI的default队列无法在迁移作业中使用。创建队列时,区域请选择和DAYU实例相同的区域。

    1. 在控制台页面的最上方,单击服务列表,选择EI企业智能 > 数据湖探索进入DLI控制台页面。
    2. 单击“SQL作业”区域中的“创建作业”进入“作业编辑器”页面。
    3. 单击上方的队列管理,进入页面后,再单击“购买队列”
    4. 在“购买队列”页面,根据页面提示完成参数配置后,单击“下一步”,再单击“立即创建”完成队列的创建。
      图7 购买DLI队列

  6. 返回DAYU数据集成的“作业管理”页面,单击“表/文件迁移”,再单击“新建作业”

    图8 表/文件迁移

  7. 按照如下步骤完成作业参数的配置。

    1. 图9所示,配置源端作业参数,然后配置目的端作业参数。

      在本示例中,目的端作业参数“导入前清空数据”配置为“是”,表示每次作业运行都会先清空数据再导入。在实际业务中,请视情况而定,需谨慎设置,以免造成数据丢失。

      图9 作业配置
    2. 在源端作业配置区域,单击“显示高级属性”,在“高级属性”中,系统提供了默认值,请根据实际业务数据的格式设置各项参数。
      例如,如图10所示,根据示例场景说明中的样例数据格式,需注意以下参数的设置,其他参数经过一一确认均保留默认值即可。
      • 字段分隔符:默认值为逗号,本示例保留默认值即可。
      • 首行为标题行:默认值为“否”,本示例首行不是标题行,保留默认值“否”即可。
      • 编码类型:默认值为UTF-8,本示例保留默认值即可。
      图10 源端高级属性
    3. 完成“源端作业配置”“目的端作业配置”后,单击“下一步”
    4. 接下来,请参考以下说明配置字段映射以及日期字段的时间格式,如图11所示,配置完成后,单击“下一步”
      • 字段映射:在本示例中,由于数据迁移的目标表字段顺序和原始数据的字段顺序是一样的,因此这里不需要调整字段映射的顺序。

        如果目标表字段顺序和原始数据不一致,请一一将源字段指向含义相同的目的字段。请将鼠标移至某一个字段的箭头起点,当光标显示为“+”的形状时,按住鼠标,将箭头指向相同含义的目的字段,然后松开鼠标。

      • 时间格式:样例数据中第2、第3个字段为时间字段,数据格式如“02/14/2017 04:08:11 PM”,因此此处设置这两个字段的时间格式为“MM/dd/yyyy hh:mm:ss a”,可以在输入框中手动输入该格式。

        时间格式请根据实际的数据格式进行设置,例如:

        yyyy/MM/dd HH:mm:ss代表将时间转换为24小时制,例如2019/08/18 15:35:45。

        yyyy/MM/dd hh:mm:ss a代表将时间转换为12小时制,例如2019/06/27 03:24:21 PM

      图11 字段映射
    5. 根据需要配置任务的重试和定时执行。
      图12 任务配置

      单击“显示高级属性”,可配置“抽取并发数”以及“是否写入脏数据”,如图13所示。

      • 抽取并发数:您可以根据业务量进行配置。数据源端如果是文件类型,当有多个文件时,增大并发数可以提升抽取速率。
      • 是否写入脏数据:建议配置为“是”,然后参考图13配置相关参数。脏数据是指与目的端字段不匹的数据,该数据可以被记录到指定的OBS桶中。用户配置脏数据归档后,正常数据可以写入目的端,迁移作业不会因脏数据中断。在本示例中,“OBS桶”配置为在准备数据源(源端)中创建的桶dayu-demo-obs,您需要前往OBS控制台,在dayu-demo-obs桶中创建一个目录,例如err_data,然后再将图13中的“脏数据目录”配置为该目录。
      图13 任务高级属性

  8. 单击“保存”完成作业的创建。

    返回“表/文件迁移”页面后,可在作业列表中查看到新建的作业。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问