更新时间:2024-08-08 GMT+08:00
分享

图数据自动化构建与分析场景介绍

图引擎服务(Graph Engine Service,简称GES)是针对以“关系”为基础的“图”结构数据,进行查询、分析的服务,并广泛应用于社交关系分析、营销推荐、舆情及社会化聆听、信息传播、防欺诈等具有丰富关系数据的场景。

DataArts Studio中,您可以将原始数据表按照GES数据导入要求处理为标准点数据集和边数据集,并通过自动生成元数据功能,将图数据(点数据集、边数据集和元数据)定期导入到GES服务中,在GES中对最新数据进行可视化图形分析。

场景说明

本案例基于某电影网站的用户和评分数据,使用DataArts Studio将MySQL原始数据处理为标准点数据集和边数据集,并同步到OBS和MRS Hive中,然后通过Import GES节点自动生成元数据后,将图数据导入到GES服务中。

图1 业务场景说明
需要额外说明的是,GES图数据格式包含三部分:点数据集、边数据集以及元数据,如果原始数据不符合GES指定的格式,则需要将数据整理为GES支持的格式。
  • 点数据集用于存放点数据。
  • 边数据集用于存放边数据。
  • 元数据用于描述点数据集和边数据集中的数据格式。

GES相关概念和图数据介绍请参见一般图数据格式

约束限制

通过Import GES节点自动生成元数据时,有如下约束限制:
  1. 生成元数据时,目前仅支持选择单标签(Label)场景的点表和边表。如果点表或边表中存在多个标签,则生成的元数据会存在缺失。
  2. 生成元数据xml文件是手动单击“生成元数据”触发的,如果在该节点在后续的作业调度运行中,点表和边表结构发生变化,元数据xml文件并不会随之更新,需要手动进入新建元数据窗口,再次单击“生成元数据”重新生成新的元数据xml文件。
  3. 生成的元数据xml文件,属性(Property)中的数据复合类型(Cardinality),目前仅支持填写为“single”类型,不支持自定义。
  4. 生成元数据功能本身,支持一次生成多对点表和边表的元数据xml文件。但考虑到Import GES节点的“边数据集”和“点数据集”参数,分别只能选择一张表,建议您在有多对点表和边表的情况下,分拆多个Import GES节点分别导入,以确保导入图数据时,元数据与每对点表和边表能够一一对应。

相关文档