更新时间:2024-04-29 GMT+08:00

开发并调度Import GES作业

本章节介绍通过数据开发调用数据集成作业,将MySQL原始数据定期同步到OBS和MRS Hive中,并标准化为GES点/边数据集。然后基于标准化点/边数据集,自动生成图的元数据,实现最终将图数据(点数据集、边数据集和元数据)定期导入到GES服务中。

图1 业务场景说明

开发并调度Import GES作业

假设MySQL中的原始数据表是每日更新的,我们希望每天都能将基于原始数据的最新图数据更新到GES中,则需要使用数据开发按如下步骤编排作业,并定期调度。

  1. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  2. 创建一个数据开发批处理作业,作业名称可以命名为“import_ges”

    图2 新建作业

  3. 在作业开发页面,拖动1个Dummy节点、8个CDM Job节点、和2个Import GES节点到画布中,选中连线图标并拖动,编排图3所示的作业。

    其中Dummy节点不执行任何操作,只作为起始点的标识。CDM Job节点用于调用在创建数据集成作业中创建的数据集成作业。Import GES节点用于将图数据导入GES。
    图3 编排作业

  4. 分别配置作业中的8个CDM Job节点。调用已创建的数据集成作业,将原始数据标准化为GES点/边数据集,并同步到OBS和MRS Hive中。

    图4 配置CDM节点

    CDM节点说明:

    • vertex_user_rds2hive(CDM Job节点):在节点属性中,选择创建数据集成作业中的CDM集群,并关联CDM作业“vertex_user_rds2hive”
    • vertex_user_rds2obs(CDM Job节点):在节点属性中,选择创建数据集成作业中的CDM集群,并关联CDM作业“vertex_user_rds2obs”
    • edge_friends_rds2hive(CDM Job节点):在节点属性中,选择创建数据集成作业中的CDM集群,并关联CDM作业“edge_friends_rds2hive”
    • edge_friends_rds2obs(CDM Job节点):在节点属性中,选择创建数据集成作业中的CDM集群,并关联CDM作业“edge_friends_rds2obs”
    • vertex_movie_rds2hive(CDM Job节点):在节点属性中,选择创建数据集成作业中的CDM集群,并关联CDM作业“vertex_movie_rds2hive”
    • vertex_movie_rds2obs(CDM Job节点):在节点属性中,选择创建数据集成作业中的CDM集群,并关联CDM作业“vertex_movie_rds2obs”
    • edge_rate_rds2hive(CDM Job节点):在节点属性中,选择创建数据集成作业中的CDM集群,并关联CDM作业“edge_rate_rds2hive”
    • edge_rate_rds2obs(CDM Job节点):在节点属性中,选择创建数据集成作业中的CDM集群,并关联CDM作业“edge_rate_rds2obs”

  5. 分别配置作业中的2个Import GES节点。由于1个Import GES节点只能选择一张点表和一张边表,并生成对应的元数据,因此本示例中使用2个Import GES节点依次进行导入。

    Import GES节点说明:
    • Import_GES_user-friend:在节点属性中,选择图名称后,边数据集和点数据集分别填写为“edge_friends”边表和“vertex_user”点表。另外,应配置为不允许重复边,否则定期调度后将产生大量重复边。

      注意,“元数据来源”需要选择为“新建元数据”,然后单击“元数据”参数后的生成按钮,弹出新建元数据窗口,如图6所示。在新建元数据窗口内,分别选择MRS中的“edge_friends”边表和“vertex_user”点表,输出目录可以设置为OBS点表和边表所在目录,然后单击生成,系统会自动在“元数据”参数处回填已生成的元数据Schema所在的OBS目录。

    • Import_GES_movie-rate:在节点属性中,选择图名称后,边数据集和点数据集分别填写为“edge_rate”边表和“vertex_movie”点表。另外,应配置为不允许重复边,否则定期调度后将产生大量重复边。

      注意,“元数据来源”需要选择为“新建元数据”,然后单击“元数据”参数后的生成按钮,弹出新建元数据窗口,如图6所示。在新建元数据窗口内,分别选择MRS中的“edge_rate”边表和“vertex_movie”点表,输出目录可以设置为OBS点表和边表所在目录,然后单击生成,系统会自动在“元数据”参数处回填已生成的元数据Schema所在的OBS目录。

    图5 配置Import GES节点
    图6 新建元数据

  6. 作业编排完成后,单击,测试运行作业。

    图7 测试运行作业

  7. 如果作业运行正常,单击“调度配置”,配置作业的调度策略。

    图8 调度配置

    说明:

    • 2023/04/01 00:00开始,每天00点00分执行一次作业。
    • 依赖属性:可以配置为依赖其他作业运行,本例不涉及,无需配置。
    • 跨周期依赖:可以选择配置为依赖上一周期或者不依赖,此处配置为不依赖即可。

  8. 最后保存并提交版本(单击),执行调度作业(单击)。实现作业每天自动运行,每日数据将自动导入到GES图中。
  9. 您如果需要及时了解作业的执行结果是成功还是失败,可以通过数据开发的运维调度界面进行查看,如图9所示。

    图9 查看作业执行情况