在ModelArts创建分布式训练时如何设置NCCL环境变量?
ModelArts训练平台预置了部分NCCL环境变量,如表1所示。这些环境变量建议保持默认值。
环境变量 |
说明 |
---|---|
NCCL_SOCKET_IFNAME |
指定通信的网卡名称。 |
NCCL_IB_GID_INDEX |
系统设置的默认值为3,表示使用RoCE v2协议。 |
NCCL_IB_TC |
系统设置的默认值为128,表示数据包走交换机的队列4,队列4使用PFC流控机制来保证网络是无损的。 |
如果训练时,需要提升通信稳定性,可以增加配置其他NCCL环境变量,如表2所示。