更新时间:2025-08-14 GMT+08:00
分享

保存调试模式训练作业镜像

在使用镜像进行开发和调试的过程中,用户可能会对镜像环境进行修改和优化。如果用户在完成镜像修改后,希望保留当前的镜像环境以备后续开发使用,此时可以在控制台使用"保存镜像"功能,将当前的镜像环境进行保存,用于后续的开发和调试工作。

在镜像保存时,需要注意以下几点:

  1. 安装的依赖包将被保留,但训练数据、代码等需要持久化存储的内容不会被保存在最终生成的容器镜像中。
  2. 在VS Code远程开发场景下,用户在Server端安装的插件将被保留。

这样可以确保关键配置和依赖得到保存,而动态数据和代码则需要通过其他方式进行管理。

前提条件

  • 调试作业创建在专属资源池上。
  • 作业状态为“运行中”

约束限制

  • 在Console上仅支持保存训练作业worker-0节点的镜像。
  • 建议保存的镜像大小不要超过35G,镜像层数不要超过125层,因为节点容器存储Rootfs差异,可能会导致镜像保存失败。

操作步骤

  1. 单击训练作业名进入作业详情,单击页面右上方“保存镜像”,弹出保存镜像对话框。
  2. 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。

    “组织”下拉框中选择一个组织。如果没有组织,可以单击右侧的“立即创建”,创建一个组织。

    同一个组织内的用户可以共享使用该组织内的所有镜像。

    镜像会以快照的形式保存,保存需要一段时间,请耐心等待。此时镜像状态为保存中。

    快照中耗费的时间仍占用作业的总运行时长,如果在快照中时,作业因运行时间到期停止,将导致镜像保存失败。

  3. 镜像保存成功后,用户可在创建训练作业时选择已保存的镜像。

常见问题

  1. 当镜像保存失败时如何处理?
    1. 当镜像保存失败时,请在训练作业详情页查看事件,事件描述请参考查看训练作业事件
    2. 如使用的是专属资源池,可尝试在资源管理 > 轻量算力集群(Lite Cluster)页面按需调整容器引擎空间大小,具体步骤请参考规格实例数扩缩容
    3. 如果问题仍未解决,请联系技术工程师。
  2. 镜像保存过程中无法查看实时日志?

    镜像保存中可能会影响查看实时日志,Cloud Shell连接可能中断,镜像保存后自动恢复。

相关文档