使用公有资产库中的图谱流水线套件构建图谱
本章节提供一个与电影有关的非结构化数据样例,帮助您快速熟悉使用流水线套件构建知识图谱的过程,以及如何使用公有资产库中的图谱本体组件、模型组件。创建完成后,您可以搜索预览相关实体的知识图谱,也可以在创建的图谱基础上全量更新或增量更新图谱。
开始使用样例前,请仔细阅读准备工作罗列的要求,提前完成准备工作。在控制台上使用图谱流水线套件创建知识图谱的步骤如下所示:
- 步骤1:准备数据
- 步骤2:选择图谱规格
- 步骤3:使用图谱流水线套件
- 步骤4:配置数据源
- 步骤5:配置图谱本体(可选)
- 步骤6:配置信息抽取
- 步骤7:配置知识映射
- 步骤8:配置知识融合
- 步骤9:配置图谱质检
- 步骤10:生成图谱
步骤1:准备数据
在创建信息抽取模型之前,您需要自行准备基础数据并上传至OBS桶及文件夹中。
由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求,要求如下:
数据格式
数据格式为短文本txt格式,文件内容示例如下:
张三的生日是1990年1月1日,身高175cm,出生于北京。
李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。
... ...
数据划分
训练数据:80%数据用于训练信息抽取模型。
验证数据:20%数据用于验证信息抽取模型性能(即F1、P、R性能指标)。
训练数据量
训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。
训练一个效果较好的模型,建议提供2万条以上的短句数据作为训练数据。
三元组类型
本样例构建的模型适用于人物、电影领域的信息抽取,限定抽取的三元组类型如表1所示。
subject_type |
predicate |
object_type |
---|---|---|
人物 |
毕业院校 |
学校 |
影视作品 |
改编自 |
作品 |
影视作品 |
制片人 |
人物 |
人物 |
身高 |
Number |
人物 |
丈夫 |
人物 |
影视作品 |
主演 |
人物 |
人物 |
出生日期 |
Date |
影视作品 |
编剧 |
人物 |
影视作品 |
导演 |
人物 |
人物 |
祖籍 |
地点 |
人物 |
父亲 |
人物 |
人物 |
出生地 |
地点 |
影视作品 |
出品公司 |
企业 |
人物 |
妻子 |
人物 |
人物 |
母亲 |
人物 |
人物 |
国籍 |
国家 |
影视作品 |
上映时间 |
Date |
- 按上文要求准备待标注的训练数据和模型数据,并保存至本地,训练数据命名为“annotation.txt”,模型数据命名为“corpus.txt”。
- 登录OBS服务,创建桶和文件夹,用于存放数据集。
创建名称为“model-data”的文件夹用于存放未标注的数据集。
创建名称为“model-data-out”的文件夹用于存放已标记并发布的数据集。
创建名称为“graph-data”的文件夹用于存放创建图谱的数据集。
创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。为保证数据能正常访问,请务必保证创建的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。
- 参考上传文件,使用单个文件上传方式将本地准备的训练数据“annotation.txt”文件上传至OBS路径“kg-model/model-data”下,将本地准备的创建模型的数据文件“corpus.txt”上传至OBS路径“kg-model/graph-data”。
步骤2:选择图谱规格
- 登录KG服务管理控制台,默认进入“我的图谱”页面。
- 单击,然后在创建图谱页面填写信息。
图1 服务选型
表2 服务选型参数说明 参数
说明
“图谱名称”
待创建图谱的名称,名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。
“图谱规格”
待创建图谱的规格大小。当前仅支持在控制台选择“体验版 一万边”,如果根据业务需要,选择标准版 百万边、标准版 千万边、高级版 千万边,请通过官网产品页“服务咨询”联系我们进行咨询购买。
“是否购买套餐包”
体验版图谱默认不能开通套餐包。如果需要选择业务版图谱,请通过官网产品页“服务咨询”联系我们进行咨询购买。
- 单击右下角“下一步”,在“版本确认”页签确认版本信息。
- 单击右下角“确认创建”。
页面提示“知识图谱创建任务提交成功”。
单击“返回”,返回至“我的图谱”页面,您会看到新创建的图谱卡片,“运行状态”为“创建中”。等待十几分钟后,运行状态变为“初始化”状态。
图2 创建图谱
步骤3:使用图谱流水线套件
- 在“我的图谱”页面鼠标移至新创建的图谱卡片,单击“图谱构建WorkSpace”。
进入流水线构建页面。
图3 图谱构建WorkSpace
- 在流水线构建页面,从左侧“电影人物流水线”套件至右侧流水线画布中。 页签中拖拽
- 在弹出的对话框中,单击“确定”。
页面提示“图谱流水线套件应用成功”。图4 应用图谱流水线套件
- 单击流水线中的蓝色组件,可以查看配置样例。
步骤4:配置数据源
- 在流水线构建页面,单击“数据源”,页面下方弹出数据源配置对话框,单击右侧按钮可以放大对话框。
图5 配置数据源
- 在“数据源配置”对话框,填写相关信息。
- “选择数据格式”:此样例选择“短文本”。
- “选择数据源文件”:单击,弹出“选择数据源文件”对话框,选择数据源存放在OBS的路径:
- “OBS桶”:选择数据源文件存放的OBS桶“kg-model”。确保您使用的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。
- “存储路径”:选择数据源文件存放在OBS桶的文件路径“kg-model/graph-data/corpus.txt”。
选择的OBS路径不能是加密路径,否则可能会访问失败。
- “OBS桶授权”:如果OBS桶未授权,请勾选“确认授权”。
选择完成后,单击“确定”。
图6 选择数据源文件
- 填写完信息后,单击“保存”,完成数据源的配置。
步骤5:配置图谱本体(可选)
本步骤以使用公有资产库图谱本体组件为例,介绍图谱本体配置操作。
使用图谱流水线套件时,流水线套件中内置了图谱本体。如果内置本体满足您的需求,则不用执行配置图谱本体的步骤。
- 在流水线构建页面,单击“图谱本体”,页面下方弹出图谱本体配置对话框,单击右侧按钮可以放大对话框。
- 在左侧“公有库”页签,拖拽“图谱本体组件”到虚线框中,单击“保存”,完成本体选择。
可单击页面右下角的“编辑”,进入本体修改页面,修改后的本体将保存至“我的库”。
图7 图谱本体
步骤6:配置信息抽取
本步骤以使用公有资产库模型组件为例,介绍信息抽取的配置操作。
- 在流水线构建页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。
- 填写信息抽取配置信息,如图8所示。
“抽取方式”:默认为“非结构化抽取”。
“抽取模型”:从左侧“公有库 > 模型组件”页签中拖拽至右侧虚线框。
- 填写完信息后,单击“保存”。
步骤8:配置知识融合
本样例不需要配置知识融合,因此关闭融合开关即可。
- 在流水线构建页面,单击“知识融合”,页面下方弹出“知识融合”对话框,单击右侧按钮可以放大对话框。
- 在“知识融合”对话框中,关闭“知识融合”开关,并单击“保存”。
返回流水线构建页面。
图11 关闭知识融合
步骤9:配置图谱质检
- 在流水线构建页面,单击“图谱质检”,页面下方弹出“图谱质检”对话框,单击右侧按钮可以放大对话框。
图12 图谱质检
- 在“图谱质检”对话框,打开“图谱质检”开关,单击“保存”。
图谱质检为非必选流程,关闭和开启状态均不影响图谱构建。开启质检任务后,后台会对当前版本的知识图谱的知识质量和流水线构建进行评估,并生成质检报告,详见查看质检报告。