NLP大模型推理常见错误及解决方案
推理日志分析方法
推理部署或者推理过程失败可以查看推理的日志进行原因分析,多数场景下的问题可以通过日志报错信息直接定位。
如果推理服务部署失败或者在运行过程中异常崩溃,ModelArts Studio会自动识别导致推理服务异常的原因,可首先在服务详情-事件-模型|服务中查看对应的异常报错信息。
更详细的日志,可以查看日志页签,并通过搜索过滤“ERROR”或“Error”定位关键信息。但请注意,不是所有的Error信息都是阻塞性错误,一般寻找异常出现的第一个Error日志进行定位。日志中存在错误码与错误描述信息见表1。
推理错误码
错误码 |
错误原因 |
解决方案 |
---|---|---|
Model.50020001 |
当前驱动 {0} 不满足指定的驱动版本 {1}。 |
请联系技术支持。 |
Model.50020002 |
当前固件 {0} 不满足指定的驱动版本 {1}。 |
请联系技术支持。 |
Model.50020003 |
当前磁盘空间大小不满足要求。 |
请检查容器内磁盘空间大小。 |
Model.50020004 |
当前资源(CPU/内存/NPU卡)不满足要求。 |
请联系技术支持。 |
Model.50020005 |
推理部署参数异常{0}。 |
请联系技术支持。 |
Model.50020101 |
文件下载错误,OBS路径{0}。 |
请检查OBS服务是否正常,OBS路径是否正确,如果正常请联系技术支持。 |
Model.50020102 |
文件下载错误,OBS服务不可用。 |
请检查OBS服务是否正常,OBS路径是否正确,如果正常请联系技术支持。 |
Model.50020103 |
文件上传错误,本地路径{0},OBS路径{1}。 |
请检查OBS服务是否正常,OBS路径是否正确,如果正常请联系技术支持。 |
Model.50020104 |
HDFS文件下载错误,HDFS路径{0}。 |
请检查HDFS服务是否正常,HDFS路径是否正确,如果正常请联系技术支持。 |
Model.50020105 |
文件上传错误,本地路径{0},HDFS路径{1}。 |
请检查HDFS服务是否正常,HDFS路径是否正确,如果正常请联系技术支持。 |
Model.50020201 |
文件完整性校验失败,文件{0}。 |
请检查文件是否正常,联系技术支持。 |
Model.50020202 |
文件一致性校验失败,文件{0}。 |
请检查文件是否正常,联系技术支持。 |
Model.50020203 |
文件加密失败,文件{0}。 |
请联系技术支持。 |
Model.50020204 |
文件解密失败,文件{0}。 |
请联系技术支持。 |
Model.50020205 |
文件加解密秘钥获取失败。 |
请联系技术支持。 |
Model.50020301 |
模型加载报错。 |
请联系技术支持。 |
Model.50020401 |
推理服务启动失败。 |
请联系技术支持。 |
Model.50021001 |
推理请求url,或类型校验错误。 |
请检查请求路径,请求类型,如果正常请联系技术支持。 |
Model.50021002 |
推理请求参数格式校验错误,应为json格式。 |
请检查请求参数内容格式,如果正常请联系技术支持。 |
Model.50021003 |
推理请求参数内容校验错误,参数{0}。 |
请检查请求参数内容信息,如果正常请联系技术支持。 |
Model.50021101 |
推理请求排队超时错误。 |
请联系技术支持。 |
Model.50021102 |
推理请求生成超时错误。 |
请联系技术支持。 |
Model.50021201 |
推理请求生成过程错误。 |
请联系技术支持。 |
Model.50021202 |
推理请求采样过程错误。 |
请联系技术支持。 |
Model.50021203 |
推理请求结果返回过程错误,流式处理错误。 |
请联系技术支持。 |
Model.50021204 |
推理过程内部错误。 |
请联系技术支持。 |
常见推理问题定位方法
常见推理问题定位思路如下:
- 根据事件及日志界面提示中提供的分析建议解决。
- 参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。
- 事件描述:根据事件问题描述进行排查问题解决。
- 若果第一步不能解决问题时,可以尝试分析日志中提示的错误信息,定位并解决问题。
- 如果以上均不能解决问题,可以提工单进行人工咨询。