基础知识
知识图谱
知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。知识图谱的基本单位是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组。例如社交网络图谱里,我们既可以有“人”的实体,也可以包含“公司”实体。
概念
概念是指抽象的、普遍的想法,是充当指明实体、事件或关系的范畴或类的实体。例如本体如图1所示,“电影”、“人物”以及两者之间的关系“主演”、“导演”均可称作概念。
本体
本体是某个领域中抽象概念的集合,能够描述某个范围内一切事物的共有特征以及事物间的关系。例如图1可称作一个本体。
数据源配置
数据是知识图谱的基础。创建知识图谱之前,必须收集基础数据用来构建知识图谱。
在知识图谱服务中,需要提前从OBS导入用于构建知识图谱的基础数据。
信息抽取
信息抽取是从基础数据中抽取待创建图谱的实体、属性信息以及实体间的相互关系。目的是从原始数据(包括结构化数据或非结构化数据)中抽取结构化的信息。
在知识图谱服务中,需要通过输入实体类型、抽取函数及抽取前后的数据字段,或创建信息抽取模型来配置信息抽取。
知识融合
知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。
如图3所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。
图谱质检
图谱质检对流水线构建中的数据源、信息抽取、知识映射、知识融合提供质量检查,辅助用户定位构建中出现的问题。从知识的准确性、一致性、完整性、时效性、重复性五种维度出发,为用户提供通用且全面的评估,并输出质检报告。