CV大模型训练常见报错与解决方案
CV大模型训练常见报错及解决方案请详见表1。
|
常见报错 |
问题现象 |
原因分析 |
解决方案 |
|---|---|---|---|
|
创建训练任务时,数据集列表为空。 |
创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 |
数据集未发布。 |
请提前创建与大模型对应的训练数据集,并完成数据集发布操作。 |
|
训练日志提示“root: XXX valid number is 0” |
日志提示“root: XXX valid number is 0”,表示训练集/验证集的有效样本量为0,例如: INFO: root: Train valid number is 0. |
该日志表示数据集中的有效样本量为0,可能有如下原因:
|
请检查数据是否已标注或标注是否符合算法要求。 |
|
训练日志提示“ValueError: label_map not match” |
训练日志中提示“ValueError: label_map not match”,并打印出标签数据,例如: ValueError: label_map not match. {1:'apple', 2:'orange', 3:'banana', 4:'pear'} & {1:'apple', 2:'orange', 3:'banana'} |
训练集中的标签个数与验证集中的个数不一致,导致该错误发生。 例如,训练集中的标签共有4个,验证集中的标签只有3个。 |
请保持数据中训练集和验证集的标签数量一致。 |
|
训练日志提示: process data failure, please check the detail |
错误码: Model.60010103 |
训练前数据处理失败 |
查看详细日志 |
|
训练日志提示: download data failure, check the obs server |
错误码: Model.60010101 |
下载数据失败 |
检测obs服务 |
|
训练日志提示: download preset model failure, check the obs server |
错误码: Model.60010102 |
下载预置模型权重失败 |
检测obs服务 |
|
训练日志提示: training failure, please check the training detail |
错误码: Model.60010301 |
训练过程失败 |
请联系技术支持 |
|
训练日志提示: post training failure, please check the detail |
错误码: Model.60010302 |
训练后处理逻辑失败 |
请联系技术支持 |
|
训练日志提示: encrypt file failure, please check the detail |
错误码: Model.60010201 |
加密文件失败 |
请联系技术支持 |
|
训练日志提示: fail to transfer pth to onnx, please check the detail |
错误码: Model.60010303 |
pth转onnx失败 |
请联系技术支持 |
|
训练日志提示:fail to simplify onnx, please check the detail |
错误码: Model.60010304 |
简化onnx失败 |
请联系技术支持 |
|
训练日志提示: fail to calculate badcase, please check the detail |
错误码: Model.60010305 |
计算badcase失败 |
请联系技术支持 |