更新时间:2024-11-04 GMT+08:00
增量导入数据
操作场景
图引擎服务在创建图完成后可以导入图数据,或者当您需要新增图数据时,可以利用“导入”功能进行增量导入。
- 当前仅支持 1.1.8 以上版本的图的增量导入功能。
- 为防止系统重启时,不能正常恢复导入图数据,建议在使用图期间,不要删除存储在OBS中的数据。
- 数据列的分隔符默认为逗号,暂不支持自定义。
- 导入目录下的单文件或者导入的单文件大小不能超过5GB,如果超过5GB,则会导入失败,建议把文件拆成小于5GB的多个文件后再导入。
- 单次导入的文件总大小(包括点、边数据集)不能超过可用内存的1/5。可用内存参考“运维监控看板”的“节点监控”中名称后缀为ges-dn-1-1和ges-dn-2-1节点可用内存(可以把鼠标悬浮在内存使用率上弹出)的最小值。
操作步骤
- 登录图引擎服务管理控制台,在左侧导航栏,选择“图管理”。
- 在图管理列表中,选择需要导入数据的图,在“操作”列选择“导入”。
图1 导入数据
- 在弹出的导入提示框中,选择以下参数。
- 图集群(持久化版图会有此项):持久化版的图在创建时会自动升级为多图集群,一个图集群下可以包含多个图实例,具体可参见多图管理(持久化版)。
- 元数据:可选择已有元数据或创建新的元数据,具体操作可参考创建元数据。
- 边数据集:选择对应的边数据集。
- 点数据集:选择对应的点数据集。若不选择,则以边数据集中的点作为点数据集来源。
- 日志存储路径:用于存储导入图过程中不符合元数据定义的点、边数据集和详细日志。存储在OBS中可能会产生费用,请及时删除。
- 边文件中包含SortKey(持久化版图有此选项):通过配置不同SortKey的值来区分重复边(源点,终点,Label三者都相同的边)。
- 边处理:包括“允许重复边”,“忽略之后的重复边”,“覆盖之前的重复边”和“重复边忽略Label”。
“边处理”:重复边默认起点和终点相同,当考虑label时,表示边的起点、终点和label相同才为重复边。
- “允许重复边”:表示起点到终点之间可以有多条边。
- “忽略之后的重复边”:表示起点和终点之间有多条边时,仅保留最先读入的那条边。
- “覆盖之前的重复边”:表示起点和终点之间有多条边时,仅保留最后读入的那条边。
- “重复边忽略Label”:忽略label时,表示边的起点、终点相同即为重复边。
- 导入类型:包括“在线导入”和“离线导入”。
- 单击“确定”完成导入。
父主题: 创建图