模型预热异常或部分成功如何处理
在模型预热过程中,可能会遇到预热异常或部分成功的情况。这些情况通常表现为模型加载失败、响应超时或部分功能未正常启动。 当遇到预热异常时,首先检查模型文件是否完整且未损坏。确认模型文件无误后,检查资源是否充足,包括内存和CPU使用情况。 如果预热部分成功,建议根据对应状态的错误信息,采取相应的解决措施。
问题描述
问题原因w
| 状态 | 描述 | 处理措施 |
|---|---|---|
| 预热成功 | 资源池中节点已完成权重目录预热。 | 无需处理。 |
| 预热中 | 资源池中节点正在进行权重目录预热。 | 无需处理。 |
| 无可调度节点 | 资源池中无可调度节点进行权重目录预热,使得权重预热任务子任务无法在指定节点数目中全部完成。可能原因包括:资源池缩容、节点添加污点、节点故障、节点排水、节点重启、节点换绑逻辑子池、资源池节点内存不足等。 | 请排查资源池可用节点数量是否大于权重预热任务目标预热节点数量。 避免无可调度节点可能的解决方案如下:
|
| 预热超时 | 权重预热子任务超时。 | 请检查待预热权重目录是否过大,或OBS服务镜像下载速率是否过低。如非以上原因,请您联系运维人员排查处理。 |
| 内存不足 | 创建权重预热任务时选择的OBS目录实际大小大于用户设置的文件占用空间大小。 | 创建权重预热任务时,设置文件占用空间大小大于OBS目录实际大小。 |
| 未知异常 | 暂未识别的失败原因。 | 可能原因: 用户未为ModelArts委托授权OBS Administrator权限,将导致模型预热失败。建议为ModelArts委托授权OBS Administrator权限。 如非以上原因,请您联系运维人员排查处理。 |
解决方法
- 模型预热异常请根据可能原因进行处理。
- 如果创建预热任务显示对应错误码,解决方案请ModelArts OS错误码里查看对应错误码。