文档首页/ AI开发平台ModelArts/ 故障排除/ 开发环境/ 代码运行故障/ 运行训练代码,出现dead kernel,并导致实例崩溃
更新时间:2024-08-21 GMT+08:00
分享

运行训练代码,出现dead kernel,并导致实例崩溃

在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。

出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题,建议您创建一个新的Notebook,使用更高规格的资源池,比如专属资源池来运行此训练代码。已经创建成功的Notebook不支持选用更高规格的资源规格进行扩容。

相关文档