文档首页> AI开发平台ModelArts> 故障排除> 训练作业> Ascend相关问题> 训练作业的日志出现detect failed(昇腾预检失败)
更新时间:2023-06-13 GMT+08:00
分享

训练作业的日志出现detect failed(昇腾预检失败)

问题现象

训练启动的日志出现如下相关错误:

time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed, error: fork/exec /home/ma-user/modelarts/bin/detect/ascend_check: no such file or directory" file="ascend_check.go:56" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service
time="2023-05-27T07:07:13Z" level=error msg="[detect] ascend-check error, exiting..." file="run_train.go:94" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service

原因分析

出现该问题的可能原因如下:

  • 用户的自定义镜像中无ascend_check工具,导致启动预检失败。
  • 用户的自定义镜像中的ascend相关工具不可用,导致预检失败。

处理方法

通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0,就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量

分享:

    相关文档

    相关产品