更新时间:2024-11-26 GMT+08:00
分享

例行维护

SFS Turbo容量监控及告警

如果SFS Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时,您需要及时清理SFS Turbo存储空间、或缩短冷数据淘汰时间加速冷数据淘汰、或对SFS Turbo进行空间扩容。详情可参见SFS Turbo监控指标说明创建告警规则

SFS Turbo性能监控

您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS Turbo监控指标说明创建告警规则

调整SFS Turbo数据淘汰策略

操作指导请参考配置SFS Turbo数据淘汰策略

SFS Turbo容量及性能扩容

当SFS Turbo存储空间不足时,您可以对SFS Turbo存储空间进行容量扩容。

SFS Turbo HPC型是按每TB单位容量来提供一定的带宽吞吐,因此当SFS Turbo HPC性能不足时,需要通过容量扩容来提高性能吞吐。

  1. 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。
  2. 在文件系统列表中,单击要扩容的文件系统所在行的“容量调整”或“扩容”,弹出对话框。

    图1 SFS Turbo HPC型容量调整

  3. 根据业务需要,在“新容量”文本框中重新设置文件文系统的容量。
  4. 在弹出对话框中确认容量调整信息后,单击“是”。
  5. 在文件系统列表中查看文件系统调整后的容量信息。

OBS性能监控

您可以在CES云监控服务上监控SFS Turbo关联的OBS桶的性能使用情况,SFS Turbo和OBS之间的数据导入导出速度会受OBS服务的读写带宽上限QoS影响,默认是16Gbit/s,如果导入导出速度受到OBS读写带宽上限影响,可提交工单联系技术支持人员申请调大OBS服务的读写带宽。

相关文档