文档首页 > > 用户指南>

配置知识融合

配置知识融合

分享
更新时间:2021/03/03 GMT+08:00

在创建知识图谱时,您需要配置知识融合,设置知识融合判断属性及相似度函数参数,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧,完成新知识图谱的创建。

知识融合

知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。

图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。

图1 知识融合示例

知识融合过程请见图2,融合过程说明请见表1

图2 知识融合
表1 知识融合说明

融合过程

过程说明

初步筛选

知识融合需要初步筛选融合标识符相同的实体数据。

判断属性相似度

初步筛选融合标识符相同的数据后,需要配置相似属性和相似度函数,并判断数据之间的属性相似度。

融合知识

对属性相似度均达到阈值条件的数据进行融合。

配置方式

前提条件

已一键智能构建图谱,详情请见一键智能构建图谱;或通过普通配置构建图谱,并且通过流水线配置已完成知识映射,详情请见配置知识映射

交互界面配置步骤

  1. “我的图谱”页面鼠标移至待创建的图谱卡片,单击“普通配置构建”

    进入普通配置构建图谱页面。

  2. 单击“知识融合”,右侧弹出“知识融合”对话框。
  3. “知识融合”对话框,
    • 若不需要进行知识融合,则关闭“是否融合”开关,进入步骤6
    • 若需要进行知识融合,则打开“是否融合”开关,进入步骤3
  4. “知识融合”对话框的“编辑方式”中,选择“交互界面”

    “交互界面”页签填写知识融合判断属性及相似度函数参数,可单击“格式化编辑”,切换至“格式化编辑”页签,查看json代码。

  5. 填写属性配置项信息。按表2填写配置参数“融合标识符”“新实体属性”“待融合实体属性”“相似度函数”“相似度阈值”

    可添加多组属性配置项,每组属性配置项可添加多个判断融合的属性配置。至少存在一组属性配置项,组内所有判断融合的属性相似度均大于相似度阈值时,即可融合这两条数据。

    单击“添加分组”,即可添加一组新的属性配置项。

    单击“增加属性配置项”,即可在组内添加新的属性配置项。
    表2 知识融合参数说明

    配置参数

    配置参数说明

    “融合标识符”

    知识融合需要初步筛选融合标识符相同的实体数据。融合标识符即初步筛选数据所依据的实体属性。如图1所示,可以选择融合标识符为“name”,即初步筛选出属性“name”相同的数据,也可选择融合标识符为“职业”,即筛选出属性“职业”相同的数据。

    “新实体属性”“待融合实体属性”

    “新实体属性”“待融合实体属性”指判断两个实体相似度所依据的实体属性,每组可选择多个属性判断相似度。一般“新实体属性”“待融合实体属性”相同。

    选择属性的时候,可以选择能够通过判断属性的相似度函数值就能判断出来两个实体是否相同的属性。例如对某一指代人物的实体,判断两个实体的属性“name”“职业”的相似度均满足预置,就可判断这两个实体实际上指代的是一个实体。

    每组可添加多个判断融合的属性,最多添加9个。

    “相似度函数”

    判断属性相似度需要选择相似度函数,当前支持两种相似度函数,一种是“EditSim”(编辑距离),一种是“JaccardSim”(Jaccard距离)。

    说明:

    “EditSim”(编辑距离)仅适用于“String”类型的实体属性,“JaccardSim”(Jaccard距离)仅适用于“Set<String>”类型的实体属性。

    “相似度阈值”

    选择相似度阈值,知识融合时,当数据的每组“新实体属性”“待融合实体属性”相似度函数值均大于阈值,即可融合这些数据。

    融合条件:当两条数据在融合标识符相似的前提条件下,存在某一组所有判断融合的属性相似度均大于相似度阈值时,融合这两条数据。

  6. 单击“确定”,完成配置知识融合。
  7. “创建图谱”页面,单击“运行”,完成图谱的创建。

    若创建多个数据源,请完成所有数据源的知识融合配置。配置数据源请参见配置数据源

完成知识融合配置后,待图谱运行成功,即成功创建一个新的知识图谱。

交互界面配置示例

以创建一个有关于电影的知识图谱为例,如果对人物的属性“name”相似的数据进行知识融合判断,当属性“name”的相似度大于1.00,且属性“职业”的相似度大于1.00时,数据进行融合。对电影的属性“name”相似的数据进行知识融合判断,当属性“name”的相似度大于1.00,且属性“上映时间”的相似度大于1.00时,数据进行融合。相似度函数均为编辑距离函数“EditSim”

  1. 选择本体为待创建的图谱选择本体。
  2. 配置数据源为待创建的图谱配置数据源。
  3. 配置信息抽取>示例为待创建的图谱配置信息抽取。
  4. 知识映射>示例为待创建的图谱配置知识映射。
  5. “知识融合”对话框,打开“是否融合”开关。
  6. 在实体“电影”对应的“融合标识符”栏单击,选择标识知识融合的本体属性“name”
  7. 填写实体“电影”的属性配置项信息。

    可添加多组属性配置项,每组属性配置项可添加多个判断融合的属性配置。至少存在一组属性配置项,组内所有判断融合的属性相似度均大于相似度阈值时,即可融合这两条数据。

    本样例只需添加一个属性配置分组,一组里填写两个属性配置项信息,如图3所示。

    单击“添加分组”,即可添加一组新的属性配置项。

    单击“增加属性配置项”,即可在组内添加新的属性配置项。
    图3 知识融合
  8. 在实体“人物”对应的“融合标识符”栏单击,在弹出的文本框中单击,选择标识知识融合的本体属性“name”
  9. 填写实体“人物”的属性配置项信息。

    本样例只需添加一个属性配置分组,一组里填写两个属性配置项信息,如图3所示。

    单击“添加分组”,即可添加一组新的属性配置项。

    单击“增加属性配置项”,即可在组内添加新的属性配置项。

  10. 单击“确定”,回到“创建图谱”页面。
  11. “创建图谱”页面,单击“运行”,完成图谱的创建。

格式化编辑步骤

  1. “我的图谱”页面鼠标移至待创建的图谱卡片,单击“普通配置构建”

    进入普通配置构建图谱页面。

  2. 单击“知识融合”,右侧弹出“知识融合”对话框。
  3. “知识融合”对话框:
    • 若不需要进行知识融合,则关闭“是否融合”开关,进入步骤6
    • 若需要进行知识融合,则打开“是否融合”开关,进入步骤3
  4. “知识融合”对话框的“编辑方式”中,选择“格式化编辑”
  5. “格式化编辑”页签的编辑框中,输入json格式代码。

    “格式化编辑”页签编辑json代码配置知识融合时,可单击“交互界面”,切换至“交互界面”页签,查看知识融合判断属性及相似度函数参数。

    示例

    以一个电影实体为例,对属性“name”相似的数据进行知识融合判断,当属性“production_region”的编辑距离大于0.04,且属性“name_en”的Jaccard距离大于0.05时,数据进行融合。代码示例如下所示:

    {
       "do_conflate": true,
       "block_keys": {
          "Person": [],
          "Film": [
             "name"
          ]
       },
       "blocker": "ngram",
       "similarity_functions": {
          "Person": [],
          "Film": [
             [
                {
                   "source_key": "production_region",
                   "target_key": "production_region",
                   "similarity_function": "EditSim",
                   "threshold": 0.04
                },
                {
                   "source_key": "name_en",
                   "target_key": "name_en",
                   "similarity_function": "JaccardSim",
                   "threshold": 0.05
                }
             ]
          ]
       }
    }
  6. 单击“确定”,回到“创建图谱”页面。
  7. “创建图谱”页面,单击“运行”,完成图谱的创建。

创建完新图谱后,您可以在“我的图谱”页面查看图谱的运行状态,图谱的状态包括“创建中”“初始化中”“可用”“运行中”“故障”

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问