更新时间:2023-01-18 GMT+08:00

模型训练

完成图片标注后,可进行模型的训练。模型训练的目的是得到满足需求的图像分类模型。由于用于训练的图片,至少有2种以上的分类,每种分类的图片数不少于5张。因此在发布训练之前,请确保已标注的图片符合要求,否则右上方“开始训练”按钮会处于灰色状态。

操作步骤

  1. “自动学习”页面,单击创建成功的项目名称,进入“数据标注”页面,完成数据标注。
    图1 完成数据标注
  2. “数据标注”页面,单击右上角的“开始训练”,然后在弹出的“训练设置”对话框中配置相关参数。参数说明请参见表1。请确保“训练验证比例”输入值的小数位数应在1~5之间。
    图2 训练参数设置
    表1 训练设置参数说明

    参数

    说明

    默认值

    数据集版本名称

    此版本即数据管理中发布数据集时设置的版本。自动学习项目中,启动训练作业时,会基于前面的数据标注,将数据集发布为一个版本。

    系统将自动给出一个版本号,您也可以根据实际情况进行填写。

    系统随机给出

    训练验证比例

    训练验证比例表示将已标注样本随机分为训练集和验证集的比例,默认训练集比例为0.8,即训练集占0.8,验证集占0.2。manifest中的usage字段记录划分类别。取值范围为0~1。

    0.8

    增量训练版本

    用户可以在之前训练成功的版本中,自主选择精度最高的版本进行再训练,可以加快模型收敛速度,提高训练精度。

    最大训练时长(分钟)

    即最大训练时长,在该时长内若训练还未完成,则保存模型停止训练。为防止模型未收敛就退出,建议使用较大值。输入值取值范围为6~6000。建议适当延长训练时间。

    60

    训练偏好

    • performance_first:性能优先,训练时间较短,模型较小
    • balance:平衡
    • accuracy_first:精度优先,训练时间较长,模型较大

    balance

    计算规格

    选择训练使用的资源规格,默认支持:

    • 增强计算型1实例-自动学习(GPU):按需计费的规格。
    • 自动学习免费规格(GPU):免费规格,使用此规格不收费。但是使用此规格时,训练作业在1小时后会自动停止,即1次最多只能使用1个小时。建议评估下您的数据大小,确保训练作业不要超过1小时。当使用人数较多时,此免费规格需排队等待。

    计算规格仅供参考,以控制台提供为准。

    自动学习免费规格(GPU)

  3. 训练参数设置完成后,单击“下一步”进入配置页,确认规格后单击“提交”进行模型的自动训练,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。

    如果使用免费规格,还需仔细阅读界面提示,同时勾选“我已阅读并同意以上内容”

  4. “模型训练”页签中,待训练状态由“运行中”变为“已完成”,即完成模型的自动训练。
    图3 运行成功
  5. 训练完成后,您可以在界面中查看训练详情,如“准确率”“评估结果”“训练参数”“分类统计表”等。评估结果参数说明请参见表2
    图4 模型训练结果
    表2 评估结果参数说明

    参数

    说明

    召回率

    被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。

    精确率

    被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。

    准确率

    所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。

    F1值

    F1值是模型精确率和召回率的加权调和平均,用于评价模型的好坏,当F1较高时说明模型效果较好。

同一个自动学习项目可以训练多次,每次训练生成一个版本。如第一次训练版本号为“V001(xxx)”,下一个版本为“V002(xxx)”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行部署上线的操作。