交互界面配置
操作步骤
- 在普通配置构建图谱页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。
- 在“信息抽取”对话框中,“抽取方式”选择“结构化抽取”,“编辑方式”选择“交互界面”。
在“交互界面”页签填写信息抽取前后的相关字段时,可单击“代码编辑”,切换至“代码编辑”页签,查看json代码。
图1 信息抽取
- 选择“默认抽取”开关。
- 图标说明开关处于开启状态。开启后,在每个数据类别中,为每个数据字段建立同名抽取项,抽取函数为${数据字段名}。
- 图标说明开关处于关闭状态,需要自定义填写信息抽取项。
- 在“信息抽取”对话框中填写信息抽取项:
每个表/文件中的数据需要设置一个唯一标识符identifier(可以抽取id/编号等可以唯一标识一条数据的内容)。例如,可以设置“url”为唯一标识符。
- 增加信息抽取项:单击“增加”,即可增加一项抽取信息类型。
- 删除信息抽取项:单击待删除的信息抽取项操作栏的“删除”,即可删除信息抽取项。
- 确认所填写的信息后,单击“保存”,完成信息抽取。
如果创建多个数据源,请完成所有数据源的信息抽取配置。配置数据源请参见配置数据源。
示例
以创建一个有关于电影的知识图谱为例,抽取信息前后的实体信息如图2所示,展示如何在创建图谱时配置信息抽取。
- 按配置数据源为待创建的图谱配置数据源。
- 按配置图谱本体为待创建的图谱选择本体。
- 在“创建图谱”页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框。
- 在“信息抽取”对话框中,“抽取方式”选择“结构化抽取”,“编辑方式”选择“交互界面”。
- 关闭“默认抽取”开关。
- 在“信息抽取”对话框中填写信息抽取项,按表2填写。
表2 信息抽取项示例 数据类别
抽取项名称
抽取函数
Person
identifier
${url}
中文名
regexp_replace(${中文名}, '\(\[link\]@.*?:(/film.*?)\)', '')
国籍
regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '')
职业
${职业}
出生日期
${出生日期}
url
${url}
Film
identifier
${url}
中文名
${中文名}
票房
${票房}
上映时间
${上映时间}
导演
regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1)
主演
regexp_extract_all(${主演}, '\(\[link\]@.*?:(/film.*?)\)', 1)
url
${url}
示例中字段抽取函数主要有三类,示例如下:
- ${职业}
- regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '')
将“国籍”字段中符合正则模式的“\(\[link\]@.*?:(/film.*?)\)”替换成空字符串,即删除符合这个pattern的字符串。例如从字段“中国([link]@中国:/film.kg.huawei.com/中国/1122445)”抽取出信息“中国”。
- regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1)
抽取出导演字段中,与模式 “\(\[link\]@.*?:(/film.*?)\)” 匹配的数据值,返回的类型是一个列表。例如“"导演":庄伟建([link]@庄伟建:/film.kg.huawei.com/庄伟建),苏万聪([link]@苏万聪:/film.kg.huawei.com/苏万聪)”,抽取信息后为“"导演":/film.kg.huawei.com/庄伟建,/film.kg.huawei.com/苏万聪”。
- 确认所填写的信息后,单击“保存”,完成信息抽取。
后续操作
配置信息抽取后,进入创建图谱的下一步操作,知识映射,具体操作步骤请见配置知识映射。