更新时间:2024-07-16 GMT+08:00
分享

准备训练数据

在创建抽取模型时,需要您提前准备用于训练模型的数据并上传至OBS目录,数据格式为txt文本的自然语言短句。KG服务当前支持的数据类型请参见训练数据类型介绍

准备数据流程如下:

  1. 准备待标注的数据
  2. 定义三元组类型(schema)
  3. 标注数据
  4. 上传至OBS

准备待标注的数据

准备待标注的训练数据,并保存至本地。数据格式为短文本txt格式,文件内容示例如下:

张三的生日是1990年1月1日,身高175cm,出生于北京。

李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。

... ...

定义三元组类型(schema)

为了训练自定义的信息抽取模型,需要定义该抽取模型能够抽取的三元组类型,并在训练数据中进行标注。

三元组是知识图谱构建的基本元组,三元组借鉴了语言学中主谓宾结构,语言学中一句话由主语(subject)、谓语(predicate)、宾语(object)组成,自然语言中的知识也可以建模为三个元素构成的组合格式,如“中国的首都是北京”这句话中,就有“中国-首都-北京”这样的三元组。

为了将三元组分类,我们定义三元组的类型由主语类型(subject type)、谓语(predicate)类型、宾语类型(object type),如上述三元组“中国-首都-北京”的类型是“国家-首都-城市”。通常我们将这些三元组类型组成的集合称为模型的schema。

标注数据

为了训练自定义的信息抽取模型,需要在训练数据中标注三元组类型。

您可以选择使用BRATMODELARTS或其他标注手段进行标注。

训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。

上传至OBS

将用于训练模型的数据上传至OBS目录:

  • 创建OBS桶和文件夹的操作指导请参见创建桶新建文件夹。确保您使用的OBS目录与KG服务在同一区域,桶的存储类别为“标准存储”。
  • 上传训练数据请参考上传文件

后续操作

准备训练数据后,即可在KG服务上创建信息抽取模型,详情请见创建模型

相关文档