配置知识融合
在创建知识图谱时,您需要配置知识融合,设置知识融合判断属性及相似度函数参数,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧,完成新知识图谱的创建。
知识融合
知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。
如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。
融合过程 |
过程说明 |
---|---|
初步筛选 |
知识融合需要初步筛选与融合标识符相似的实体数据。 |
判断属性相似度 |
初步筛选与融合标识符相似的数据后,需要配置相似属性和相似度函数,并判断数据之间的属性相似度。 |
融合知识 |
对属性相似度均达到阈值条件的数据进行融合。 |
综上所述,在创建图谱的过程中,需要配置知识融合的融合标识符、待融合的实体、相似度函数和相似度阈值等参数,KG服务会根据所配置的参数进行知识融合。配置知识融合的详细步骤请见配置知识融合。
配置步骤
- 在普通配置构建图谱页面,单击“知识融合”,页面下方弹出“知识融合”对话框,单击右侧按钮可以放大对话框。
- 在“知识融合”对话框,选择“知识融合”开关。
知识融合为非必选流程,不配置仍可运行图谱构建。配置融合后,需开启融合开关方可生效。
- 在左侧区域单击实体名称,在右侧区域填写属性配置项信息。按表2填写配置参数“融合标识符”和“融合条件”。
单击“融合条件”右侧的“添加分组”,填写参数“待融合属性”、“相似度函数”和“相似度阈值”。
图3 知识融合
可添加多组属性配置项,每组属性配置项可添加多个判断融合的属性配置。至少存在一组属性配置项,组内所有判断融合的属性相似度均大于相似度阈值时,即可融合这两条数据。
单击“添加分组”,即可添加一组新的属性配置项。
单击“增加属性配置项”,即可在组内添加新的属性配置项。
每个实体配置完成后,单击“保存”。
表2 知识融合参数说明 配置参数
配置参数说明
“融合标识符”
知识融合需要初步筛选与融合标识符相似的实体数据。融合标识符即初步筛选数据所依据的实体属性。如图1所示,可以选择融合标识符为“name”,即初步筛选出与属性“name”相似的数据,也可选择融合标识符为“职业”,即筛选出与属性“职业”相似的数据。
“待融合属性”
“待融合属性”指判断两个实体相似度所依据的实体属性,每组可选择多个属性判断相似度。
选择属性的时候,可以选择能够通过判断属性的相似度函数值就能判断出来两个实体是否相似的属性。例如对某一指代人物的实体,判断两个实体的属性“name”和“职业”的相似度均满足阈值,就可判断这两个实体实际上指代的是一个实体。
每组可添加多个判断融合的属性,最多添加9个。
“相似度函数”
判断属性相似度需要选择相似度函数,当前支持两种相似度函数,一种是“EditSim”(编辑距离),一种是“JaccardSim”(Jaccard距离)。
说明:“EditSim”(编辑距离)仅适用于“String”类型的实体属性,“JaccardSim”(Jaccard距离)仅适用于“Set<String>”类型的实体属性。
“相似度阈值”
选择相似度阈值,知识融合时,当数据的每组“待融合属性”相似度函数值均大于阈值,即可融合这些数据。
融合条件:当两条数据在融合标识符相似的前提条件下,存在某一组所有判断融合的属性相似度均大于相似度阈值时,融合这两条数据。
- 在页面右下角单击“保存”,完成配置知识融合。
知识融合配置完成后,鼠标悬浮在知识融合方框区域,显示清空图标,单击后可一键清空知识融合配置。
- 在“生成图谱”页面,单击“运行”,完成图谱的创建。
如果创建多个数据源,请完成所有数据源的知识融合配置。配置数据源请参见配置数据源。
完成知识融合配置后,待图谱运行成功,即成功创建一个新的知识图谱。
配置示例
以创建一个有关于电影的知识图谱为例,如果对电影的属性“name”相似的数据进行知识融合判断,当属性“name”的相似度大于等于0.90,且属性“上映时间”的相似度大于等于0.90时,数据进行融合。对人物的属性“name”相似的数据进行知识融合判断,当属性“name”的相似度大于等于0.90,且属性“职业”的相似度大于等于0.90时,数据进行融合。相似度函数均为编辑距离函数“EditSim”。
- 按配置数据源为待创建的图谱配置数据源。
- 按配置图谱本体为待创建的图谱选择本体。
- 按配置信息抽取>示例为待创建的图谱配置信息抽取。
- 按知识映射>示例为待创建的图谱配置知识映射。
- 在“知识融合”对话框,打开“知识融合”开关。
- 在左侧区域,单击“电影”实体名称。在右侧实体“电影”对应的“融合标识符”栏单击,选择标识知识融合的本体属性“name”。
- 填写实体“电影”的属性配置项信息。
可添加多组属性配置项,每组属性配置项可添加多个判断融合的属性配置。至少存在一组属性配置项,组内所有判断融合的属性相似度均大于相似度阈值时,即可融合这两条数据。
本样例只需添加一个属性配置分组,一组里填写两个属性配置项信息,如图4所示。
单击“添加分组”,即可添加一组新的属性配置项。
单击“增加属性配置项”,即可在组内添加新的属性配置项。
- 在左侧区域,单击“人物”实体名称。在右侧实体“人物”对应的“融合标识符”栏单击,选择标识知识融合的本体属性“name”。
- 填写实体“人物”的属性配置项信息。
本样例只需添加一个属性配置分组,一组里填写两个属性配置项信息,如图5所示。
单击“添加分组”,即可添加一组新的属性配置项。
单击“增加属性配置项”,即可在组内添加新的属性配置项。
实体配置完成后,单击“确定”。
- 在页面右下角单击“保存”,回到图谱流水线页面。
- 在图谱流水线页面,单击“生成图谱”,完成图谱的创建。