预测大模型训练常见报错与解决方案
预测大模型训练常见报错及解决方案请详见表1。
常见报错 |
问题现象 |
原因分析 |
解决方案 |
---|---|---|---|
训练后推理服务部署失败,报错“KeyError” |
训练后推理报错“KeyError”: KeyError: '0.0' |
训练类别特征列选择为数值类型列。 |
类别特征列需要填字符串的特征或者是需要特征编码的列名,不能填数值类型列。 |
训练任务报错“ValueError: could not convert string to float” |
训练任务报错“ValueError: could not convert string to float”: ValueError: could not convert string to float: '2016/6/27 1:55 |
训练时选择的特征列包含了非数值类型列。 |
训练时选择的特征列只能选择数值类型列,非数值类型列需要放到非特征列。 |
训练日志提示“ValueError: label_map not match” |
训练日志中提示“ValueError: label_map not match”,并打印出标签数据,例如: ValueError: label_map not match. {1:'apple', 2:'orange', 3:'banana', 4:'pear'} & {1:'apple', 2:'orange', 3:'banana'} |
训练集中的标签个数与验证集中的个数不一致,导致该错误发生。 例如,训练集中的标签共有4个,验证集中的标签只有3个。 |
请保持数据中训练集和验证集的标签数量一致。 |
训练后推理服务部署失败,报错NPU不可用 |
推理服务启动失败,报错NPU不可用: get device count of NPU failed,torch.npu.is_available() is False |
NPU卡未及时释放或者被其他应用占用,导致推理服务器上无推理卡可用。 |
释放推理服务器上的NPU卡。 |