使用自定义抽取模型创建图谱
本章节以有关于人物和电影的非结构化数据为例,提供一个使用自定义的信息抽取模型创建知识图谱的流程,帮助您快速熟悉使用非结构化数据和自定义信息抽取模型创建图谱的过程。
首先,请仔细阅读准备工作罗列的要求,提前完成准备工作。然后在控制台上创建信息抽取模型和知识图谱,步骤如下:
步骤1:创建本体
在创建信息抽取模型中自定义的信息抽取模型需要从本章节待创建的图谱数据中抽取三元组信息,因此我们在创建本体时可以参考表1中的三元组类型。
- 登录KG服务管理控制台,在左侧菜单栏中选择“本体管理”页面。 ,进入
- 单击左上角“创建本体”,弹出“创建本体”对话框。
- 在对话框中,“本体名称”文本框中填写本体名称“person_film”,在“本体描述”文本框中填写本体描述“包括电影和人物两个概念”,单击“确定”。
图2 创建本体
- 创建两个概念节点“Film”和“Person”。
具体操作如下:
- 双击界面空白处,新建概念节点。
- 右键单击概念图标,选择“编辑”或双击概念图标,左侧弹出概念编辑框。
- 在概念编辑框中,按表1编辑“概念名称”、“Icon”和“属性”,单击“保存”。
图3 编辑概念
表1 编辑概念 参数
说明
推荐填写
概念名称
概念名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。
本样例需要创建两个概念,分别可命名为“Film”和“Person”。
Icon
单击选择概念图标的颜色和样式,单击右侧的“更多”,可选择更多图标样式。
-
属性
编辑当前概念的属性。所有概念都默认有一个属性为“name”,且默认属性类型为“single_string”。
- 概念“Film”新增属性“release_time”、“production_company”和“adapted_from”。
- 概念“Person”新增属性“ancestral_home”、“data_of_birth”、“graduated_school”、“height”、“nationality”、“nation”、“place_of_birth”。
- 创建“Film”和“Person”之间的关系。
具体操作如下:
- 按住键盘a键,同时鼠标单击概念节点“Film”,拖拽出一条线,移动至目标概念“Person”。
或鼠标右键单击一个概念节点“Film”,选择“新建关系”,然后拖拽出一条线,移动至目标概念“Person”。
- 右键单击关系曲线,选择“编辑”。
右侧弹出关系编辑框。
图4 编辑关系
- 在关系编辑框中,填写“关系名称”,只能由大小写字母、数字、中文、下划线组成,长度为1-63位。
本样例需创建“Film”和“Person”之间的关系,关系名称为“written_by”、“starring”、“directed_by”、“produced_by”。图5 编辑关系
- 单击“保存”。
- 按住键盘a键,同时鼠标单击概念节点“Film”,拖拽出一条线,移动至目标概念“Person”。
- 创建“Person”和“Person”之间的关系。
具体操作如下。
- 按住键盘a键,同时鼠标单击概念节点“Person”,拖拽出一条线,移动至目标概念“Person”。
或鼠标右键单击一个概念节点“Person”,选择“新建关系”,然后拖拽出一条线,移动至目标概念“Person”。
- 右键单击关系曲线,选择“编辑”。
右侧弹出关系编辑框。
- 在关系编辑框中,填写“关系名称”,只能由大小写字母、数字、中文、下划线组成,长度为1-63位。
本样例需创建三个“Person”和“Person”之间的关系,关系名称分别为“father”、“spouse”、“mother”。图6 编辑关系
- 单击“保存”。
- 按住键盘a键,同时鼠标单击概念节点“Person”,拖拽出一条线,移动至目标概念“Person”。
步骤2:选择图谱规格
- 登录KG服务管理控制台,默认进入“我的图谱”页面。
- 单击,在创建图谱页面按表2填写信息。
图7 服务选型
- 单击右下角“下一步”,在“版本确认”页签确认版本信息。
- 单击右下角“确认创建”。
页面提示“知识图谱创建任务提交成功”。
单击“返回”,返回至“我的图谱”页面,您会看到新创建的图谱卡片,“运行状态”为“创建中”。等待十几分钟后,运行状态变为“初始化”状态。
图8 创建图谱
步骤3:配置数据源
创建图谱的数据使用在步骤1:准备数据中提前准备并上传至OBS的图谱数据。
- 在“我的图谱”页面鼠标移至新创建的图谱卡片,单击“图谱构建WorkSpace”。
进入图谱流水线构建页面。
图9 图谱构建WorkSpace
- 在流水线构建页面,单击“数据源”,页面下方弹出数据源配置对话框,单击右侧按钮可以放大对话框。
图10 配置数据源
- 在“数据源配置”对话框,填写相关信息。
- “选择数据格式”:此样例选择“短文本”。
- “选择数据源文件”:单击,弹出“选择数据源文件”对话框,选择数据源存放在OBS的路径:
- “OBS桶”:选择数据源文件存放的OBS桶“kg-model”。确保您使用的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。
- “存储路径”:选择数据源文件存放在OBS桶的文件路径“kg-model/graph-data/corpus.txt”。
选择的OBS路径不能是加密路径,否则可能会访问失败。
- “OBS桶授权”:如果OBS桶未授权,请勾选“确认授权”。
选择完成后,单击“确定”。
图11 选择数据源文件
- 填写完信息后,单击“保存”,完成数据源的配置。
步骤4:配置图谱本体
- 在流水线构建页面,单击“图谱本体”,页面下方弹出图谱本体配置对话框,单击右侧按钮可以放大对话框。
- 选择左侧“我的库”页签,在“图谱本体组件”中拖拽步骤1:创建本体中创建的本体“person_film”到虚线框中,单击“保存”,完成本体选择。
“我的库”页签下的“图谱本体组件”呈现的是“我的图谱资产库”中“我的本体”页面创建或OBS导入的所有本体。
可单击页面右下角的“编辑”,进入本体修改页面,修改后的本体将保存至“我的库”。
图12 图谱本体
步骤7:配置知识融合
本样例不需要配置知识融合,因此关闭融合开关即可。
- 在流水线构建页面,单击“知识融合”,页面下方弹出“知识融合”对话框,单击右侧按钮可以放大对话框。
- 在“知识融合”对话框中,关闭“知识融合”开关,并单击“保存”。
返回流水线构建页面。
图16 关闭知识融合
步骤8:配置图谱质检
- 在流水线构建页面,单击“图谱质检”,页面下方弹出“图谱质检”对话框,单击右侧按钮可以放大对话框。
图17 图谱质检
- 在“图谱质检”对话框,打开“图谱质检”开关,单击“保存”。
图谱质检为非必选流程,关闭和开启状态均不影响图谱构建。开启质检任务后,后台会对当前版本的知识图谱的知识质量和流水线构建进行评估,并生成质检报告,详见查看质检报告。
跳至新建图谱“test”的详情页,查看图谱的状态,当图谱的“状态”由“运行中”变为“已完成”后,即可单击“图谱预览”,预览图谱。