更新时间:2024-11-04 GMT+08:00
分享

增量导入数据

操作场景

图引擎服务在创建图完成后可以导入图数据,或者当您需要新增图数据时,可以利用“导入”功能进行增量导入。

  • 当前仅支持 1.1.8 以上版本的图的增量导入功能。
  • 为防止系统重启时,不能正常恢复导入图数据,建议在使用图期间,不要删除存储在OBS中的数据。
  • 数据列的分隔符默认为逗号,暂不支持自定义。
  • 导入目录下的单文件或者导入的单文件大小不能超过5GB,如果超过5GB,则会导入失败,建议把文件拆成小于5GB的多个文件后再导入。
  • 单次导入的文件总大小(包括点、边数据集)不能超过可用内存的1/5。可用内存参考“运维监控看板”的“节点监控”中名称后缀为ges-dn-1-1和ges-dn-2-1节点可用内存(可以把鼠标悬浮在内存使用率上弹出)的最小值。

操作步骤

  1. 登录图引擎服务管理控制台,在左侧导航栏,选择“图管理”
  2. 在图管理列表中,选择需要导入数据的图,在“操作”列选择“导入”

    图1 导入数据

  3. 在弹出的导入提示框中,选择以下参数。

    • 图集群(持久化版图会有此项):持久化版的图在创建时会自动升级为多图集群,一个图集群下可以包含多个图实例,具体可参见多图管理(持久化版)
    • 元数据:可选择已有元数据或创建新的元数据,具体操作可参考创建元数据
    • 边数据集:选择对应的边数据集。
    • 点数据集:选择对应的点数据集。若不选择,则以边数据集中的点作为点数据集来源。
    • 日志存储路径:用于存储导入图过程中不符合元数据定义的点、边数据集和详细日志。存储在OBS中可能会产生费用,请及时删除。
    • 边文件中包含SortKey(持久化版图有此选项):通过配置不同SortKey的值来区分重复边(源点,终点,Label三者都相同的边)。
    • 边处理:包括“允许重复边”,“忽略之后的重复边”,“覆盖之前的重复边”和“重复边忽略Label”。

      边处理的具体含义如下:

      “边处理”:重复边默认起点和终点相同,当考虑label时,表示边的起点、终点和label相同才为重复边。
      • “允许重复边”:表示起点到终点之间可以有多条边。
      • “忽略之后的重复边”:表示起点和终点之间有多条边时,仅保留最先读入的那条边。
      • “覆盖之前的重复边”:表示起点和终点之间有多条边时,仅保留最后读入的那条边。
      • “重复边忽略Label”:忽略label时,表示边的起点、终点相同即为重复边。
    • 导入类型:包括“在线导入”和“离线导入”。
    • 持久化版图支持多图管理需要选择图名称,不支持导入类型。
    • 边数据集和点数据集当前仅支持英文路径和文件夹格式。
    • 目前只支持从OBS中选择边数据集和点数据集,建议您提前将数据文件存储至OBS中,导入OBS的操作请参见OBS《快速入门》。
    • 所选边数据文件或点数据文件中的“Label”“Label”“Property”的顺序需与所选元数据文件中的一致,否则会提示“所选边数据/点数据文件与元数据文件不匹配”而无法创建图。关于GES图数据的格式的具体内容可参考图数据的格式
    • 图数据(包含元数据、边数据集、点数据集)需按照模板中的格式导入。模板中已包含一份电影数据,可单击“下载模板”后直接导入。

  4. 单击“确定”完成导入。

相关文档