更新时间:2024-06-18 GMT+08:00
分享

Import GES

功能

通过Import GES节点可以将OBS桶中的文件导入到GES的图中。

Import GES算子的具体使用教程,请参见基于MRS Hive表构建图数据并自动导入GES

参数

用户可参考表1表2配置Import GES节点的参数。

表1 属性参数

参数

是否必选

说明

节点名称

节点名称,可以包含中文、英文字母、数字、“_”“-”“/”“<”“>”等各类特殊字符,长度为1~128个字符。

图名称

可以直接选择需要导入的图,也支持手动输入图名称。

如需新建GES图,请前往GES管理控制台进行新建。

元数据来源

元数据来源支持以下两种方式:

  • 已有文件:从OBS桶中选择已有的xml格式元数据文件。
  • 新建元数据:根据MRS Hive中的点表和边表,生成xml格式元数据文件到 OBS桶中。
    说明:

    请至少输入元数据、边数据集与点数据集中的其中一个字段。

元数据

根据“元数据来源”的选择,本参数有不同的填写方式。

  • 如果元数据来源为已有文件,单击输入框中的并选择对应的元数据文件 。
  • 如果元数据来源为新建元数据,单击输入框中的,进入新建元数据的界面,分别选择MRS Hive中的点表和边表,并填写元数据输出的OBS路径,单击生成元数据,系统会自动生成xml格式的元数据文件并回填到OBS路径。

    其中MRS Hive中的点表和边表,即为按GES图数据格式要求标准化后的边数据集和点数据集,需要与“边数据集”和“点数据集”参数所选的OBS桶中边数据集和点数据集保持一致。

    点数据集和边数据集应符合GES图数据格式要求。图数据格式要求简要介绍如下,详情可参见一般图数据格式
    • 点数据集罗列了各个点的数据信息。一行为一个点的数据。格式如下所示,id是点数据的唯一标识。
      id,label,property 1,property 2,property 3,…
    • 边数据集罗列了各个边的数据信息,一行为一条边的数据。GES中图规格是以边的数量进行定义的,如一百万边。格式如下所示,id 1、id 2是一条边的两个端点的id。
      id 1, id 2, label, property 1, property 2, …
    说明:

    选择新建元数据时,有如下注意事项:

    1. 生成元数据时,目前仅支持选择单标签(Label)场景的点表和边表。如果点表或边表中存在多个标签,则生成的元数据会存在缺失。
    2. 生成元数据xml文件是手动单击“生成元数据”触发的,如果在该节点在后续的作业调度运行中,点表和边表结构发生变化,元数据xml文件并不会随之更新,需要手动进入新建元数据窗口,再次单击“生成元数据”重新生成新的元数据xml文件。
    3. 生成的元数据xml文件,属性(Property)中的数据复合类型(Cardinality),目前仅支持填写为“single”类型,不支持自定义。
    4. 生成元数据功能本身,支持一次生成多对点表和边表的元数据xml文件。但考虑到Import GES节点的“边数据集”和“点数据集”参数,分别只能选择一张表,建议您在有多对点表和边表的情况下,分拆多个Import GES节点分别导入,以确保导入图数据时,元数据与每对点表和边表能够一一对应。
    图1 新建元数据

边数据集

可以直接选择对应的OBS桶中的边数据集csv文件,也支持选择对应的边数据集的OBS路径。

点数据集和边数据集应符合GES图数据格式要求。图数据格式要求简要介绍如下,详情可参见一般图数据格式
  • 点数据集罗列了各个点的数据信息。一行为一个点的数据。格式如下所示,id是点数据的唯一标识。
    id,label,property 1,property 2,property 3,…
  • 边数据集罗列了各个边的数据信息,一行为一条边的数据。GES中图规格是以边的数量进行定义的,如一百万边。格式如下所示,id 1、id 2是一条边的两个端点的id。
    id 1, id 2, label, property 1, property 2, …

点数据集

可以直接选择对应的点数据集,也支持选择对应的点数据集的OBS路径。

点数据集和边数据集应符合GES图数据格式要求。图数据格式要求简要介绍如下,详情可参见一般图数据格式
  • 点数据集罗列了各个点的数据信息。一行为一个点的数据。格式如下所示,id是点数据的唯一标识。
    id,label,property 1,property 2,property 3,…
  • 边数据集罗列了各个边的数据信息,一行为一条边的数据。GES中图规格是以边的数量进行定义的,如一百万边。格式如下所示,id 1、id 2是一条边的两个端点的id。
    id 1, id 2, label, property 1, property 2, …

边处理

边处理支持如下几种方式:

  • 允许重复边
  • 不允许重复,忽略之后的重复边
  • 不允许重复,覆盖之前的重复边

离线导入

是否离线导入,取值为是或者f否,默认取否。

  • 是: 表示离线导入,导入速度较快,但导入过程中图处于锁定状态,不可读不可写。
  • 否:表示在线导入,相对离线导入,在线导入速度略慢,但导入过程中图并未锁定,可读不可写。

重复边忽略Label

重复边的定义,是否忽略Label。取值为是或者否,默认取是。

  • 是:表示重复边定义不包含Label,即用<源点,终点>标记一条边,不包含Label。
  • 否:表示重复边定义包含Label,即用<源点,终点,Label>标记一条边。

日志存储路径

用于存储导入图过程中不符合元数据定义的点、边数据集和详细日志。

表2 高级参数

参数

是否必选

说明

节点状态轮询时间(秒)

设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。

节点执行的最长时间

设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。

失败重试

节点执行失败后,是否重新执行节点

  • 是:重新执行节点,请配置以下参数。
    • 超时重试
    • 最大重试次数
    • 重试间隔时间(秒)
  • 否:默认值,不重新执行节点
    说明:

    如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。

    当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。

    当“失败重试”配置为“是”才显示“超时重试”。

当前节点失败后,后续节点处理策略

节点执行失败后的操作:

  • 终止后续节点执行计划:停止后续节点的运行,当前作业实例状态显示为“失败”。
  • 终止当前作业执行计划:停止当前作业运行,当前作业实例状态显示为“失败”。
  • 继续执行下一节点:忽略当前节点失败,当前作业实例状态显示为“忽略失败”。
  • 挂起当前作业执行计划:当前作业实例的状态为运行异常,该节点的后续节点以及依赖于当前作业的后续作业实例都会处于等待运行状态。

是否空跑

如果勾选了空跑,该节点不会实际执行,将直接返回成功。

任务组

选择任务组。任务组配置好后,可以更细粒度的进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。

相关文档