训练模型
选择训练数据后,基于已标注的训练数据,选择预训练模型、配置参数,用于训练文本分类模型。
前提条件
已在自然语言处理套件控制台选择“多语种文本分类工作流”新建应用,并选择训练数据集,详情请见选择数据。
训练模型
在“模型训练”页面,勾选模型训练所使用的“预训练模型”,并配置训练参数,开始训练模型。
- 预训练模型
当前服务提供预置预训练模型“高精版”、“均衡版”、“基础版”,在“预训练模型”列表中可查看“模型精度”、“推理速度”、“训练速度”和模型“简介”。
- 参数配置
在“参数配置”填写“学习率”、“训练轮次”和“语种”。
- “学习率”用来控制模型的学习速度,范围为(0,1]。
- “训练轮次”指模型训练中遍历数据集的次数。
- “语种”指文本数据的语言种类。
确认信息后,单击“开始训练”。
模型训练一般需要运行一段时间,等模型训练完成后,“模型训练”页面下方显示训练详情。
模型如何提升效果
- 检查是否存在训练数据过少的情况,建议每个标签的样本数不少于100个,如果低于这个量级建议扩充。
- 检查不同标签的样本数是否均衡,建议不同标签的样本数量级相同,并尽量接近,如果有的类别数据量很高,有的类别数据量较低,会影响模型整体的识别效果。
- 选择适当的学习率和训练轮次。
- 通过详细评估中的错误识别示例,有针对性地扩充训练数据。
后续操作
模型训练完成后,单击“下一步”,进入应用开发的“模型评估”步骤,详细操作指引请参见评估模型。