更新时间:2024-07-16 GMT+08:00
分享

基础知识

知识图谱

知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。知识图谱的基本单位是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组。例如社交网络图谱里,我们既可以有“人”的实体,也可以包含“公司”实体。

概念

概念是指抽象的、普遍的想法,是充当指明实体、事件或关系的范畴或类的实体。例如本体如图1所示,“电影”“人物”以及两者之间的关系“主演”“导演”均可称作概念。

本体

本体是某个领域中抽象概念的集合,能够描述某个范围内一切事物的共有特征以及事物间的关系。例如图1可称作一个本体。

实体

实体是知识图谱三元组的元素之一,指某种具体的事物。例如某一具体的电影(人物或关系),可称作实体。

关系

关系是知识图谱三元组的元素之一,指实体与实体之间的语义关系,比如张三是李四的同事,实体“张三”与实体“李四”的关系是同事关系。

图1 本体

数据源配置

数据是知识图谱的基础。创建知识图谱之前,必须收集基础数据用来构建知识图谱。

在知识图谱服务中,需要提前从OBS导入用于构建知识图谱的基础数据。

信息抽取

信息抽取是从基础数据中抽取待创建图谱的实体、属性信息以及实体间的相互关系。目的是从原始数据(包括结构化数据或非结构化数据)中抽取结构化的信息。

在知识图谱服务中,需要通过输入实体类型、抽取函数及抽取前后的数据字段,或创建信息抽取模型来配置信息抽取。

知识映射

知识映射是建立从基础数据抽取出的结构化信息与知识图谱本体的映射关系,例如抽取出的有关电影结构化信息与图谱本体映射关系如图2所示。

图2 实体电影的知识映射关系

知识融合

知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。

图3所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。

图3 知识融合示例

图谱质检

图谱质检对流水线构建中的数据源、信息抽取、知识映射、知识融合提供质量检查,辅助用户定位构建中出现的问题。从知识的准确性、一致性、完整性、时效性、重复性五种维度出发,为用户提供通用且全面的评估,并输出质检报告。

相关文档