文档首页/ AI开发平台ModelArts/ 故障排除/ 推理部署/ 模型管理/ 创建模型失败,如何定位和处理问题?
更新时间:2024-11-22 GMT+08:00
分享

创建模型失败,如何定位和处理问题?

问题定位和处理

创建模型失败有两种场景:创建模型时直接报错或者是调用API报错和创建模型任务下发成功,但最终模型创建失败。

  1. 创建模型时直接报错或者是调用API报错。一般都是输入参数不合法导致的。您可以根据提示信息进行排查修改即可。
  2. 创建模型任务下发成功,但最终模型创建失败。需要从以下几个方面进行排查:
    • 在模型详情页面,查看“事件”页签中的事件信息。根据事件信息分析模型失败原因,进行处理。
    • 如果模型状态为“构建失败”,可以在模型详情页面,查看“事件”页签中的“查看构建日志”。构建日志中有对应的构建镜像失败的详细原因,根据构建失败的原因进行排查处理。
      图1 查看构建日志

常见问题

  1. 模型文件目录下不能出现dockerfile文件;
    “查看构建日志”中显示“Not only a Dockerfile in your OBS path, please make sure, The dockerfile list”,表示dockerfile文件目录有问题,模型文件目录下不能出现dockerfile文件,需要去掉模型文件目录下存在dockerfile文件。
    图2 构建日志:dockerfile文件目录有问题
  2. pip软件包版本不匹配,需要修改为日志中打印的存在的版本。
    图3 pip版本不匹配
  3. 构建日志中出现报错:“exec /usr/bin/sh: exec format error”。

    这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的,例如使用的是x86的镜像却标记的是arm的系统架构。

    可以通过查看模型详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表

相关文档