更新时间:2025-09-16 GMT+08:00
分享

预测大模型训练常见报错与解决方案

预测大模型训练常见报错及解决方案请详见表1

表1 预测大模型训练常见报错与解决方案

常见报错

问题现象

原因分析

解决方案

训练后推理服务部署失败,报错“KeyError”

训练后推理报错“KeyError”:

KeyError: '0.0'

训练类别特征列选择为数值类型列。

类别特征列需要填字符串的特征或者是需要特征编码的列名,不能填数值类型列。

训练任务报错“ValueError: could not convert string to float”

训练任务报错“ValueError: could not convert string to float”:

ValueError: could not convert string to float: '2016/6/27 1:55

训练时选择的特征列包含了非数值类型列。

训练时选择的特征列只能选择数值类型列,非数值类型列需要放到非特征列。

训练日志提示“ValueError: label_map not match”

训练日志中提示“ValueError: label_map not match”,并打印出标签数据,例如:

ValueError: label_map not match. {1:'apple', 2:'orange', 3:'banana', 4:'pear'} & {1:'apple', 2:'orange', 3:'banana'}

训练集中的标签个数与验证集中的个数不一致,导致该错误发生。

例如,训练集中的标签共有4个,验证集中的标签只有3个。

请保持数据中训练集和验证集的标签数量一致。

训练后推理服务部署失败,报错NPU不可用

推理服务启动失败,报错NPU不可用:

get device count of NPU failed,torch.npu.is_available() is False

NPU卡未及时释放或者被其他应用占用,导致推理服务器上无推理卡可用。

释放推理服务器上的NPU卡。

相关文档