AI开发平台ModelArtsAI开发平台ModelArts

更新时间:2021/03/18 GMT+08:00
分享

模型训练

完成数据标注后,可进行模型的训练。模型训练的目的是得到满足需求的文本分类模型。由于用于训练的文本,至少有2种以上的分类(即2种以上的标签),每种分类的文本数不少于20个。因此在发布训练之前,请确保已标注的文本符合要求,否则下方“开始训练”按钮会处于灰色状态。

操作步骤

  1. “自动学习”页面,单击创建成功的项目名称,进入“数据标注”页面,完成数据标注。
  2. “数据标注”页面,单击右上角的“开始训练”,然后在弹出的“训练设置”对话框中配置相关参数。参数说明请参见表1
    图1 训练参数设置
    表1 训练设置参数说明

    参数

    说明

    默认值

    数据集版本名称

    此版本即数据管理中发布数据集时设置的版本。自动学习项目中,启动训练作业时,会基于前面的数据标注,将数据集发布为一个版本。

    系统将自动给出一个版本号,您也可以根据实际情况进行填写。

    系统随机给出

    训练验证比例

    训练验证比例表示将已标注样本随机分为训练集和验证集的比例,默认训练集比例为0.8,即全部分为训练集,manifest中的usage字段记录划分类别。取值范围为0~1。

    0.8

    最大训练时长(分钟)

    即最大训练时长,在该时长内若训练还未完成,则强制退出。为防止训练中退出,建议使用较大值。输入范围为6~6000。适当延长训练时间,500张图片的训练集建议选择运行120分钟以上。

    60

    训练偏好

    • performance_first:性能优先,训练时间较短,模型较小
    • balance:平衡
    • accuracy_first:精度优先,训练时间较长,模型较大

    balance

    计算规格

    选择训练使用的资源规格,默认支持:

    • 增强计算型1实例-自动学习(GPU):按需计费的规格。
    • 自动学习免费规格(GPU):免费规格,使用此规格不收费。但是使用此规格时,训练作业在1小时后会自动停止,即1次最多只能使用1个小时。建议评估下您的数据大小,确保训练作业不要超过1小时。当使用人数较多时,此免费规格需排队等待。

    如果使用免费规格,还需仔细阅读界面提示,同时勾选“我已阅读并同意以上内容”

    自动学习(GPU)增强计算型2实例-自动学习(NPU)

  3. 训练参数设置完成后,单击“下一步”进入配置页,确认规格后单击“提交”进行模型的自动训练,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。
  4. “模型训练”页签中,待训练状态由“运行中”变为“已完成”,即完成模型的自动训练。
    图2 运行成功
  5. 训练完成后,您可以在界面中查看训练详情,如“准确率”“评估结果”“训练参数”“分类统计表”等。评估结果参数说明请参见表2
    图3 训练详情
    表2 评估结果参数说明

    参数

    说明

    召回率

    被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。

    精确率

    被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。

    准确率

    所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。

    F1值

    F1值是模型精确率和召回率的加权调和平均,用于评价模型的好坏,当F1较高时说明模型效果较好。

同一个自动学习项目可以训练多次,每次训练生成一个版本。如第一次训练版本号为“V001(xxx)”,下一个版本为“V002(xxx)”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行部署上线的操作。

分享:

    相关文档

    相关产品