文档首页/ 魔坊(ModelArts)模型训推平台/ 最佳实践/ LLM大语言模型训练/ LLM大语言模型训练其它版本/ 主流开源大模型基于轻量算力集群适配AscendFactory NPU训练解决方案/ 常见错误原因和解决方法/ 网卡名称错误
更新时间:2025-11-19 GMT+08:00
网卡名称错误
当训练开始时提示网卡名称错误或者通信超时,可以使用ifconfig命令检查网卡名称配置是否正确。
比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。
图1 网卡名称错误
export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称, export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称
关于环境变量的解释可以参考:Distributed communication package - torch.distributed — PyTorch 2.3 documentation
父主题: 常见错误原因和解决方法