Pod模型配置加载失败报错:ModelArts.8501
问题现象
在线服务部署过程中或者实例重启等场景,在Pod事件列表中,事件详细信息中出现ModelArts.8501错误码,报错:A system-related error (such as disk full error, disk corruption, etc.) occurred during the OBS download process。
原因分析
用户在部署在线服务时,“指定模型来源”为“对象存储服务 OBS”,且开启了本地存储加速能力,推理平台在处理OBS文件下载过程中出现了磁盘空间不足、磁盘异常等系统问题。
解决办法
建议用户排查:
- 资源池状态以及事件是否正常。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入“在线推理”管理页面。
- 您可以单击在线服务名称,进入在线服务的详情页面。
- 在部署信息中,单击资源池,进入资源池详情页。
- 切换至事件页签,查看事件信息。
- 集群的磁盘监控磁盘空间使用是否达到阈值。
如果出现磁盘空间不足的情况,可以将异常在线服务所在资源池上的推理作业适当停止或者删除,释放资源。或者对资源池进行扩容,将服务部署到新扩的节点上。
如果异常问题均没有问题,请联系运维人员解决。