文档首页/ AI开发平台ModelArts/ 故障排除/ Lite Server/ 使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed
更新时间:2024-09-07 GMT+08:00
分享

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed

问题现象

弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接、并发的读写数据、做大模型训练。 但有时候会出现读取速度变慢的现象,并且SFS提示报错"rpc_check_timeout:939 callbacks suppressed"。

原因分析

根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过 1 分钟时,客户端内核会打印"rpc_check_timeout:939 callbacks suppressed"日志。这个日志只是说明某个IO处理时间超过 1 分钟了,不会造成数据丢失。客户端有重试机制,等峰值过去后,所有IO最终都会正确处理。所以理论上,出现该错误日志, 并不会造成数据丢失, 只是SFS客户端I/O速度变慢或卡顿,但最终会争取处理。

处理方法

  • 结合当前购买的SFS盘性能规划业务, 建议不要运行到性能上限。
  • 可以购买多个SFS Turbo实例分担业务压力, 或者更换高性能的SFS盘。
  • 一个SFS实例容量建议不要太大,建议以同样的成本换成购买多个SFS实例。

相关文档