准备图谱数据
数据是知识图谱的基础。在创建知识图谱时,需要提前将创建图谱的数据上传至OBS。
数据格式要求
- XLSX文件
该类型为结构化数据输入格式。使用XLSX文件,即表格文件作为数据源时,文件必须为.xlsx格式,文件中每一个工作簿为一类数据,工作簿名为数据类型名。每个工作簿中,第一行为数据头,从第二行开始,每一行为一条数据。XLSX文件模板示例请单击下载。
- CSV文件
该类型为结构化数据输入格式。使用CSV文件作为数据源时,首先需要把CSV文件上传至OBS的一个文件夹,构建图谱时,会读取该文件夹下所有以.csv为后缀的文件。每一个文件为一类数据,文件名(不包含.csv后缀)为数据类型名,文件编码需要为UTF-8 无BOM。每个文件中,第一行为数据头,从第二行开始,每一行为一条数据。CSV文件示例请单击下载。
- 多行JSON文件(JSON Lines)
该类型为结构化数据输入格式。文件中,每一行为一个完整的紧凑(单行)JSON字符串。文件编码格式需为UTF-8,文件名需以.json结尾,如“input.json”。文件内容如下所示。
{"entity_type": "Person", "中文名": "康时", "国籍": "中国", "职业": "演员", "出生日期": "1985年3月3日", "url": "/film.kg.huawei.com/康时/165882308"} {"entity_type": "Person", "中文名": "戴奇", "国籍": "韩国", "职业": "演员,歌手", "出生日期": "1987年6月22日", "url": "/film.kg.huawei.com/戴奇"}
JSON数据样例请单击下载。
- 多行单句文本文件
该类型为非结构化输入格式。文件中,每一行为一个自然语言短句。文件编码格式需为UTF-8,文件名需以.txt结尾,如“input.txt”。
项羽,名籍
项羽是楚国武将
文昭甄皇后史称甄夫人
文昭甄皇后中山无极(今河北省无极县)人,上蔡令甄逸之女
文昭甄皇后魏文帝曹丕的妻子,魏明帝曹叡的生母
…….
上传数据至OBS
- 创建用于存储基础数据的OBS桶及文件夹,详情请见添加桶。
由于当前KG服务部署在“华北-北京四”,您在创建OBS桶时,需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。
- 将创建图谱的基础数据上传至OBS,上传至OBS的基础数据格式请见数据格式要求。