文档首页/ 知识图谱 KG/ 最佳实践/ 非结构化数据创建图谱/ 使用自定义抽取模型创建图谱
更新时间:2024-04-24 GMT+08:00
分享

使用自定义抽取模型创建图谱

本章节以有关于人物和电影的非结构化数据为例,提供一个使用自定义的信息抽取模型创建知识图谱的流程,帮助您快速熟悉使用非结构化数据和自定义信息抽取模型创建图谱的过程。

首先,请仔细阅读准备工作罗列的要求,提前完成准备工作。然后在控制台上创建信息抽取模型和知识图谱,步骤如下:

准备工作

  • 注册华为账号,并完成实名认证,具体申请信息请见账号注册实名认证。且在使用知识图谱服务前检查账号状态,账号不能处于欠费或冻结状态。
  • 已自定义信息抽取模型,详情请见创建信息抽取模型

步骤1:创建本体

创建信息抽取模型中自定义的信息抽取模型需要从本章节待创建的图谱数据中抽取三元组信息,因此我们在创建本体时可以参考表1中的三元组类型。

图1 创建本体
  1. 登录KG服务管理控制台,在左侧菜单栏中选择我的图谱资产库 > 我的本体,进入“本体管理”页面。
  2. 单击左上角“创建本体”,弹出“创建本体”对话框。
  3. 在对话框中,“本体名称”文本框中填写本体名称“person_film”,在“本体描述”文本框中填写本体描述“包括电影和人物两个概念”,单击“确定”
    图2 创建本体
  4. 创建两个概念节点“Film”“Person”
    具体操作如下:
    1. 双击界面空白处,新建概念节点。
    2. 右键单击概念图标,选择“编辑”或双击概念图标,左侧弹出概念编辑框。
    3. 在概念编辑框中,按表1编辑“概念名称”“Icon”“属性”,单击“保存”
      图3 编辑概念
      表1 编辑概念

      参数

      说明

      推荐填写

      概念名称

      概念名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。

      本样例需要创建两个概念,分别可命名为“Film”“Person”

      Icon

      单击选择概念图标的颜色和样式,单击右侧的“更多”,可选择更多图标样式。

      -

      属性

      编辑当前概念的属性。所有概念都默认有一个属性为“name”,且默认属性类型为“single_string”

      • 新增属性

        单击“新增属性”可添加属性文本框,在文本框中填写属性的“名称”,选择“单值/多值”“类型”“操作”

        • 名称:属性名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。
        • 单值/多值:选择当前属性是单值还是多值。
        • 类型:选择属性的类型,可选类型有“single_string”“single_int”“single_double”“single_bool”

        填写完概念的属性后,单击“操作”列的,保存信息。

      • 复制属性

        单击已有属性“操作”列的,复制当前属性。

      • 删除属性

        单击已有属性“操作”列的,删除当前属性。

      • 概念“Film”新增属性“release_time”“production_company”“adapted_from”
      • 概念“Person”新增属性“ancestral_home”“data_of_birth”“graduated_school”“height”“nationality”“nation”“place_of_birth”
  5. 创建“Film”“Person”之间的关系。

    具体操作如下:

    1. 按住键盘a键,同时鼠标单击概念节点“Film”,拖拽出一条线,移动至目标概念“Person”

      或鼠标右键单击一个概念节点“Film”,选择“新建关系”,然后拖拽出一条线,移动至目标概念“Person”

    2. 右键单击关系曲线,选择“编辑”

      右侧弹出关系编辑框。

      图4 编辑关系
    3. 在关系编辑框中,填写“关系名称”,只能由大小写字母、数字、中文、下划线组成,长度为1-63位。
      本样例需创建“Film”“Person”之间的关系,关系名称为“written_by”“starring”“directed_by”“produced_by”
      图5 编辑关系
    4. 单击“保存”
  6. 创建“Person”“Person”之间的关系。

    具体操作如下。

    1. 按住键盘a键,同时鼠标单击概念节点“Person”,拖拽出一条线,移动至目标概念“Person”

      或鼠标右键单击一个概念节点“Person”,选择“新建关系”,然后拖拽出一条线,移动至目标概念“Person”

    2. 右键单击关系曲线,选择“编辑”

      右侧弹出关系编辑框。

    3. 在关系编辑框中,填写“关系名称”,只能由大小写字母、数字、中文、下划线组成,长度为1-63位。
      本样例需创建三个“Person”“Person”之间的关系,关系名称分别为“father”“spouse”“mother”
      图6 编辑关系
    4. 单击“保存”

步骤2:选择图谱规格

  1. 登录KG服务管理控制台,默认进入“我的图谱”页面。
  2. 单击,在创建图谱页面按表2填写信息。
    图7 服务选型
    表2 服务选型参数说明

    参数

    说明

    图谱名称

    待创建图谱的名称,名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。

    图谱规格

    待创建图谱的规格大小。当前仅支持在控制台选择“体验版 一万边”,如果根据业务需要,选择标准版 百万边、标准版 千万边、高级版 千万边,请通过官网产品页“服务咨询”联系我们进行咨询购买。

    是否购买套餐包

    体验版图谱默认不能开通套餐包。如果需要选择业务版图谱,请通过官网产品页“服务咨询”联系我们进行咨询购买。

  3. 单击右下角“下一步”,在“版本确认”页签确认版本信息。
  4. 单击右下角“确认创建”

    页面提示“知识图谱创建任务提交成功”

    单击“返回”,返回至“我的图谱”页面,您会看到新创建的图谱卡片,“运行状态”“创建中”。等待十几分钟后,运行状态变为“初始化”状态。

    图8 创建图谱

步骤3:配置数据源

创建图谱的数据使用在步骤1:准备数据中提前准备并上传至OBS的图谱数据。

  1. “我的图谱”页面鼠标移至新创建的图谱卡片,单击“图谱构建WorkSpace”

    进入图谱流水线构建页面。

    图9 图谱构建WorkSpace
  2. 在流水线构建页面,单击“数据源”,页面下方弹出数据源配置对话框,单击右侧按钮可以放大对话框。
    图10 配置数据源
  3. “数据源配置”对话框,填写相关信息。
    • “选择数据格式”:此样例选择“短文本”
    • “选择数据源文件”:单击,弹出“选择数据源文件”对话框,选择数据源存放在OBS的路径:
      1. “OBS桶”:选择数据源文件存放的OBS桶“kg-model”。确保您使用的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。
      2. “存储路径”:选择数据源文件存放在OBS桶的文件路径“kg-model/graph-data/corpus.txt”

        选择的OBS路径不能是加密路径,否则可能会访问失败。

      3. “OBS桶授权”:如果OBS桶未授权,请勾选“确认授权”

      选择完成后,单击“确定”

      图11 选择数据源文件
  4. 填写完信息后,单击“保存”,完成数据源的配置。

步骤4:配置图谱本体

  1. 在流水线构建页面,单击“图谱本体”,页面下方弹出图谱本体配置对话框,单击右侧按钮可以放大对话框。
  2. 选择左侧“我的库”页签,在“图谱本体组件”中拖拽步骤1:创建本体中创建的本体“person_film”到虚线框中,单击“保存”,完成本体选择。

    “我的库”页签下的“图谱本体组件”呈现的是“我的图谱资产库”“我的本体”页面创建或OBS导入的所有本体。

    可单击页面右下角的“编辑”,进入本体修改页面,修改后的本体将保存至“我的库”。

    图12 图谱本体

步骤5:配置信息抽取

本样例使用在创建信息抽取模型中自定义的抽取模型进行信息抽取。

  1. 在流水线构建页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。
  2. 填写信息抽取配置信息,如图13所示。

    “抽取方式”:默认为“非结构化抽取”

    “抽取模型”:选择创建信息抽取模型用户自定义的模型“Person_Film_Model”

    图13 配置信息抽取
  3. 填写完信息后,单击“保存”

步骤6:配置知识映射

配置信息抽取后,需要配置知识映射,建立步骤6:配置知识映射中抽取出的三元组信息与本体的映射关系。

  1. 在流水线构建页面,单击“知识映射”

    页面下方弹出“知识映射”对话框,单击右侧按钮可以放大对话框。

  2. “知识映射”对话框,选择编辑方式为“表格配置模式”,填写知识映射的相关信息。
    • 单击实体“Person”对应的图标。
    • 填写实体“Person”映射前的抽取项:“人物”
    • 填写映射到实体“Person”的抽取项,如图14表3所示。
      图14 实体Person的抽取项
      表3 实体Person的抽取项

      属性/关系名称

      抽取项

      name

      name

      place_of_birth

      出生地

      nation

      民族

      nationality

      国籍

      height

      身高

      graduated_school

      毕业院校

      data_of_birth

      出生日期

      ancestral_home

      祖籍

      father

      父亲

      spouse

      妻子、丈夫

      mother

      母亲

    • 单击实体“Film”对应的图标。
    • 填写实体“Film”映射前的抽取项:“影视作品”
    • 填写映射到实体“Film”的抽取项,如图15表4所示。
      图15 实体Film的抽取项
      表4 实体Film的抽取项

      属性/关系名称

      抽取项

      name

      name

      adapted_from

      改编自

      production_company

      出品公司

      release_time

      上映时间

      written_by

      编剧

      starring

      主演

      directed_by

      导演

      produced_by

      制片人

  3. 单击“保存”,完成知识映射配置。

步骤7:配置知识融合

本样例不需要配置知识融合,因此关闭融合开关即可。

  1. 在流水线构建页面,单击“知识融合”,页面下方弹出“知识融合”对话框,单击右侧按钮可以放大对话框。
  2. “知识融合”对话框中,关闭“知识融合”开关,并单击“保存”

    返回流水线构建页面。

    图16 关闭知识融合

步骤8:配置图谱质检

  1. 在流水线构建页面,单击“图谱质检”,页面下方弹出“图谱质检”对话框,单击右侧按钮可以放大对话框。
    图17 图谱质检
  2. “图谱质检”对话框,打开“图谱质检”开关,单击“保存”

    图谱质检为非必选流程,关闭和开启状态均不影响图谱构建。开启质检任务后,后台会对当前版本的知识图谱的知识质量和流水线构建进行评估,并生成质检报告,详见查看质检报告

步骤9:生成图谱

在流水线构建页面单击右上角“生成图谱”,完成图谱的创建。

图18 生成图谱

跳至新建图谱“test”的详情页,查看图谱的状态,当图谱的“状态”“运行中”变为“已完成”后,即可单击“图谱预览”,预览图谱。

相关文档