更新时间:2024-09-19 GMT+08:00
Cluster资源池如何进行NCCl Test?
ModelArts提供AI诊断功能,用户可以通过NCCl Test,测试节点GPU状态,并且测试多个节点间的通信速度。
操作步骤
- 单击资源池名称,进入资源池详情。
- 单击左侧“AI组件管理 > AI诊断”。
- 单击“诊断”,选择“日志上传路径”和NCCL Test节点,其余参数可保持默认值或根据实际需求修改。
- 测试使用的最大数据:取值范围[1, 1024],单位可选为“B”、“KB”、“MB”、“GB”“TB”。测试使用的最大数据须大于开始测试使用的最小数据。
- 开始测试使用的最小数据:取值范围[1, 1024],单位可选为“B”、“KB”、“MB”、“GB”“TB”。
- 日志上传路径:AI诊断日志上传路径。
- 数据增加方式:当前支持乘法方式。
- 乘法系数:数值范围[2, 100]。
- 超过时间:数值范围[150, 3600]。
- NCCL Test节点名称列表:不可为空,且被选择的节点须为可用状态。
- 单击“确认”,即可开始诊断。
父主题: Lite Cluster