例行维护
SFS Turbo容量监控及告警
如果SFS Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时,您需要及时清理SFS Turbo存储空间、或缩短冷数据淘汰时间加速冷数据淘汰、或对SFS Turbo进行空间扩容。详情可参见SFS Turbo监控指标说明和创建告警规则。
SFS Turbo性能监控
您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS Turbo监控指标说明和创建告警规则。
调整SFS Turbo数据淘汰策略
操作指导请参考配置SFS Turbo数据淘汰策略。
SFS Turbo容量及性能扩容
当SFS Turbo存储空间不足时,您可以对SFS Turbo存储空间进行容量扩容。
SFS Turbo HPC型是按每TB单位容量来提供一定的带宽吞吐,因此当SFS Turbo HPC性能不足时,需要通过容量扩容来提高性能吞吐。
- 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。
- 在文件系统列表中,单击要扩容的文件系统所在行的“容量调整”或“扩容”,弹出对话框。
图1 SFS Turbo HPC型容量调整
- 根据业务需要,在“新容量”文本框中重新设置文件文系统的容量。
- 在弹出对话框中确认容量调整信息后,单击“是”。
- 在文件系统列表中查看文件系统调整后的容量信息。
OBS性能监控
您可以在CES云监控服务上监控SFS Turbo关联的OBS桶的性能使用情况,SFS Turbo和OBS之间的数据导入导出速度会受OBS服务的读写带宽上限QoS影响,默认是16Gbit/s,如果导入导出速度受到OBS读写带宽上限影响,可提交工单联系技术支持人员申请调大OBS服务的读写带宽。