更新时间:2025-07-30 GMT+08:00
分享

NLP大模型推理常见错误及解决方案

推理日志分析方法

推理部署或者推理过程失败可以查看推理的日志进行原因分析,多数场景下的问题可以通过日志报错信息直接定位。

如果推理服务部署失败或者在运行过程中异常崩溃,ModelArts Studio会自动识别导致推理服务异常的原因,可首先在服务详情-事件-模型|服务中查看对应的异常报错信息。

更详细的日志,可以查看日志页签,并通过搜索过滤“ERROR”或“Error”定位关键信息。但请注意,不是所有的Error信息都是阻塞性错误,一般寻找异常出现的第一个Error日志进行定位。日志中存在错误码与错误描述信息见表1

推理错误码

表1 推理错误清单

错误码

错误原因

解决方案

Model.50020001

当前驱动 {0} 不满足指定的驱动版本 {1}。

请联系技术支持。

Model.50020002

当前固件 {0} 不满足指定的驱动版本 {1}。

请联系技术支持。

Model.50020003

当前磁盘空间大小不满足要求。

请检查容器内磁盘空间大小。

Model.50020004

当前资源(CPU/内存/NPU卡)不满足要求。

请联系技术支持。

Model.50020005

推理部署参数异常{0}。

请联系技术支持。

Model.50020101

文件下载错误,OBS路径{0}。

请检查OBS服务是否正常,OBS路径是否正确,如果正常请联系技术支持。

Model.50020102

文件下载错误,OBS服务不可用。

请检查OBS服务是否正常,OBS路径是否正确,如果正常请联系技术支持。

Model.50020103

文件上传错误,本地路径{0},OBS路径{1}。

请检查OBS服务是否正常,OBS路径是否正确,如果正常请联系技术支持。

Model.50020104

HDFS文件下载错误,HDFS路径{0}。

请检查HDFS服务是否正常,HDFS路径是否正确,如果正常请联系技术支持。

Model.50020105

文件上传错误,本地路径{0},HDFS路径{1}。

请检查HDFS服务是否正常,HDFS路径是否正确,如果正常请联系技术支持。

Model.50020201

文件完整性校验失败,文件{0}。

请检查文件是否正常,联系技术支持。

Model.50020202

文件一致性校验失败,文件{0}。

请检查文件是否正常,联系技术支持。

Model.50020203

文件加密失败,文件{0}。

请联系技术支持。

Model.50020204

文件解密失败,文件{0}。

请联系技术支持。

Model.50020205

文件加解密秘钥获取失败。

请联系技术支持。

Model.50020301

模型加载报错。

请联系技术支持。

Model.50020401

推理服务启动失败。

请联系技术支持。

Model.50021001

推理请求url,或类型校验错误。

请检查请求路径,请求类型,如果正常请联系技术支持。

Model.50021002

推理请求参数格式校验错误,应为json格式。

请检查请求参数内容格式,如果正常请联系技术支持。

Model.50021003

推理请求参数内容校验错误,参数{0}。

请检查请求参数内容信息,如果正常请联系技术支持。

Model.50021101

推理请求排队超时错误。

请联系技术支持。

Model.50021102

推理请求生成超时错误。

请联系技术支持。

Model.50021201

推理请求生成过程错误。

请联系技术支持。

Model.50021202

推理请求采样过程错误。

请联系技术支持。

Model.50021203

推理请求结果返回过程错误,流式处理错误。

请联系技术支持。

Model.50021204

推理过程内部错误。

请联系技术支持。

常见推理问题定位方法

常见推理问题定位思路如下:

  1. 根据事件及日志界面提示中提供的分析建议解决。
    • 参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。
    • 事件描述:根据事件问题描述进行排查问题解决。
  2. 若果第一步不能解决问题时,可以尝试分析日志中提示的错误信息,定位并解决问题。
  3. 如果以上均不能解决问题,可以提工单进行人工咨询。

相关文档