文档首页> 医疗智能体 EIHealth> 常见问题> 流程、作业> 直接挂载OBS目录进行大规模计算,如何解决偶现报错
更新时间:2022-09-22 GMT+08:00
分享

直接挂载OBS目录进行大规模计算,如何解决偶现报错

问题现象

运行作业时,作业直接挂载OBS目录进行大规模计算。偶现“异常应用”,并日志报错input/output error或file xxx not exists。

问题原因

  • OBS集群到计算集群之间的带宽达到了上限。
  • OBS集群的IOPS达到了上限。

解决方案

  • 更改分析存储介质,例如使用更高性能的IO加速方案(SFS Turbo、EVS),如使用SFS Turbo加速,在投递作业时可以选择“IO加速”。

  • 降低通量运行,进而降低带宽、IO需求,使得带宽、IO满足生产需求。
  • 优化软件算法,如使用内存做缓存等,降低软件的IO需求。
  • 针对特定的项目,对带宽或IO性能进行扩容。
  • 提交工单或联系服务技术支持。
分享:

流程、作业 所有常见问题

more