更新时间:2024-09-27 GMT+08:00
分享

训练文本分类模型

完成数据标注后,可进行模型的训练。模型训练的目的是得到满足需求的文本分类模型。由于用于训练的文本,至少有2种以上的分类(即2种以上的标签),每种分类的文本数不少于20个。因此在单击“继续运行”按钮之前,请确保已标注的文本符合要求。

操作步骤

  1. 在新版自动学习页面,单击项目名称进入运行总览,单击“数据标注”节点的“实例详情”进入“数据标注”页面,完成数据标注。
    图1 完成数据标注
  2. 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。
  3. 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。
  4. “文本分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。
    图2 运行成功
  5. 训练完成后,您可以单击文本分类节点上方的按钮,查看相关指标信息,如“准确率”“评估结果”等。评估结果参数说明请参见表1
    图3 模型评估报告
    表1 评估结果参数说明

    参数

    说明

    recall:召回率

    被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。

    precision:精确率

    被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。

    accuracy:准确率

    所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。

    f1:F1值

    F1值是模型精确率和召回率的加权调和平均,用于评价模型的好坏,当F1较高时说明模型效果较好。

同一个自动学习项目可以训练多次,每次训练生成一个版本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。

相关文档