文档首页/ 知识图谱 KG/ 用户指南/ 准备图谱数据
更新时间:2024-07-16 GMT+08:00
分享

准备图谱数据

数据是知识图谱的基础。在创建知识图谱时,需要提前将创建图谱的数据上传至OBS。

数据格式要求

  • XLSX文件

    该类型为结构化数据输入格式。使用XLSX文件,即表格文件作为数据源时,文件必须为.xlsx格式,文件中每一个工作簿为一类数据,工作簿名为数据类型名。每个工作簿中,第一行为数据头,从第二行开始,每一行为一条数据。XLSX文件模板示例请单击下载

  • CSV文件

    该类型为结构化数据输入格式。使用CSV文件作为数据源时,首先需要把CSV文件上传至OBS的一个文件夹,构建图谱时,会读取该文件夹下所有以.csv为后缀的文件。每一个文件为一类数据,文件名(不包含.csv后缀)为数据类型名,文件编码需要为UTF-8 无BOM。每个文件中,第一行为数据头,从第二行开始,每一行为一条数据。CSV文件示例请单击下载

  • 多行JSON文件(JSON Lines)

    该类型为结构化数据输入格式。文件中,每一行为一个完整的紧凑(单行)JSON字符串。文件编码格式需为UTF-8,文件名需以.json结尾,如“input.json”。文件内容如下所示。

    {"entity_type": "Person", "中文名": "康时", "国籍": "中国", "职业": "演员", "出生日期": "1985年3月3日", "url": "/film.kg.huawei.com/康时/165882308"}
    {"entity_type": "Person", "中文名": "戴奇", "国籍": "韩国", "职业": "演员,歌手", "出生日期": "1987年6月22日", "url": "/film.kg.huawei.com/戴奇"}

    JSON数据样例请单击下载

  • 多行单句文本文件

    该类型为非结构化输入格式。文件中,每一行为一个自然语言短句。文件编码格式需为UTF-8,文件名需以.txt结尾,如“input.txt”

    项羽,名籍

    项羽是楚国武将

    文昭甄皇后史称甄夫人

    文昭甄皇后中山无极(今河北省无极县)人,上蔡令甄逸之女

    文昭甄皇后魏文帝曹丕的妻子,魏明帝曹叡的生母

    …….

上传数据至OBS

  • 创建用于存储基础数据的OBS桶及文件夹,详情请见添加桶

    由于当前KG服务部署在“华北-北京四”,您在创建OBS桶时,需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。

  • 将创建图谱的基础数据上传至OBS,上传至OBS的基础数据格式请见数据格式要求

相关文档