NLP大模型训练常见报错与解决方案
| 常见报错 | 问题现象 | 原因分析 | 解决方案 | 
|---|---|---|---|
| 创建训练任务时,数据集列表为空。 | 创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 | 数据集未发布。 | 请提前创建与大模型对应的训练数据集,并完成数据集发布操作。 | 
| 训练日志提示“root: XXX valid number is 0” | 日志提示“root: XXX valid number is 0”,表示训练集/验证集的有效样本量为0,例如: INFO: root: Train valid number is 0. | 该日志表示数据集中的有效样本量为0,可能有如下原因: 
 | 请检查数据是否已标注或标注是否符合算法要求。 | 
| 训练日志提示“ValueError: label_map not match” | 训练日志中提示“ValueError: label_map not match”,并打印出标签数据,例如: ValueError: label_map not match. {1:'apple', 2:'orange', 3:'banana', 4:'pear'} & {1:'apple', 2:'orange', 3:'banana'} | 训练集中的标签个数与验证集中的个数不一致,导致该错误发生。 例如,训练集中的标签共有4个,验证集中的标签只有3个。 | 请保持数据中训练集和验证集的标签数量一致。 | 
| 错误码 | 错误信息 | 说明 | 建议解决方法 | 
|---|---|---|---|
| model.50010001 | 当前驱动 {0} 不满足指定的驱动版本 {1}。 | 当前驱动 {0} 不满足指定的驱动版本 {1}。 | 联系oncall检查宿主机上的驱动,若不符合要求,则需要oncall重新升级驱动到错误信息中指定的版本。 | 
| model.50010002 | 当前固件 {0} 不满足指定的驱动版本 {1}。 | 当前固件 {0} 不满足指定的驱动版本 {1}。 | 联系oncall检查宿主机上的固件,若不符合要求,则需要oncall重新升级驱动到错误信息中指定的版本。 | 
| model.50010003 | 当前磁盘空间大小不满足要求。 | 当前磁盘空间大小不满足要求。 | 联系oncall扩容宿主机上的磁盘,要求挂载到/cache目录上的空间大于等于19T。 | 
| model.50010101 | Obs文件下载错误。 | Obs文件下载错误。 | 请检查OBS服务是否正常,如果正常请联系技术支持。 | 
| model.50010104 | Obs文件上传错误。 | Obs文件上传错误。 | 请检查OBS服务是否正常,如果正常请联系技术支持。 | 
| model.50010106 | 文件删除错误,OBS服务不可用。 | 文件删除错误,OBS服务不可用。 | 请检查OBS服务是否正常,如果正常请联系技术支持。 | 
| model.50010107 | 文件上传错误,HDFS服务不可用。 | 文件上传错误,HDFS服务不可用。 | 请检查HDFS服务是否正常,如果正常请联系技术支持。 | 
| model.50010108 | 文件下载错误,HDFS服务不可用。 | 文件下载错误,HDFS服务不可用。 | 请检查HDFS服务是否正常,如果正常请联系技术支持。 | 
| model.50010109 | 文件删除错误,HDFS服务不可用。 | 文件删除错误,HDFS服务不可用。 | 请检查HDFS服务是否正常,如果正常请联系技术支持。 | 
| model.50010110 | 列举文件夹下文件错误,HDFS服务不可用。 | 列举文件夹下文件错误,HDFS服务不可用。 | 请检查HDFS服务是否正常,如果正常请联系技术支持。 | 
 
  