更新时间:2024-04-30 GMT+08:00
分享

AI诊断

用户可以通过NCCl Test,测试节点GPU状态,并且测试多个节点间的通信速度。

操作步骤

  1. 单击资源池名称,进入资源池详情。
  2. 单击左侧“AI组件管理 > AI诊断”。
  3. 单击“诊断”,选择“日志上传路径”和NCCL Test节点,其余参数可保持默认值或根据实际需求修改。

    • 测试使用的最大数据:取值范围[1, 1024],单位可选为“B”、“KB”、“MB”、“GB”“TB”。测试使用的最大数据须大于开始测试使用的最小数据。
    • 开始测试使用的最小数据:取值范围[1, 1024],单位可选为“B”、“KB”、“MB”、“GB”“TB”。
    • 日志上传路径:AI诊断日志上传路径。
    • 数据增加方式:当前支持乘法方式。
    • 乘法系数:数值范围[2, 100]。
    • 超过时间:数值范围[150, 3600]。
    • NCCL Test节点名称列表:不可为空,且被选择的节点须为可用状态。

  4. 单击“确认”,即可开始诊断。
分享:

    相关文档

    相关产品