CCE AI套件(NVIDIA GPU)
插件介绍
CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。
字段说明
| 参数 | 是否必选 | 参数类型 | 描述 | 
|---|---|---|---|
| basic | 是 | object | 插件基础配置参数。 | 
| custom | 是 | 表3 object | 插件自定义参数 | 
| 参数 | 是否必选 | 参数类型 | 描述 | 
|---|---|---|---|
| cluster_version | 否 | String | CCE集群版本 | 
| device_version | 是 | String | 插件的版本 | 
| driver_version | 是 | String | 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 | 
| obs_url | 是 | String | 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 | 
| swr_addr | 是 | String | 镜像仓库地址 | 
| swr_user | 是 | String | 镜像仓库租户路径 | 
| 参数 | 是否必选 | 参数类型 | 描述 | 
|---|---|---|---|
| compatible_with_legacy_api | 否 | Bool | API兼容开关 默认值:false true:插件支持GPU卡原生模式和XGPU虚拟化模式。 | 
| component_schedulername | 是 | String | 插件使用的调度器的名字 默认值:default-scheduler | 
| disable_mount_path_v1 | 否 | Bool | 默认值:false true:不将/opt/cloud/cce/nvidia挂载到GPU容器的/usr/lib/nvidia路径上 | 
| disable_nvidia_gsp | 否 | Bool | 默认值:true true:关闭GPU的GSP firmware | 
| driver_mount_paths | 否 | String | 自动挂载到GPU容器里的路径 默认值:"bin,lib64" | 
| enable_fault_isolation | 否 | Bool | 默认值:true true:插件识别GPU硬件故障或驱动程序问题,设置GPU卡不可用 | 
| enable_health_monitoring | 否 | Bool | 默认值:true true:插件能够识别GPU硬件故障或驱动程序问题 | 
| enable_metrics_monitoring | 否 | Bool | 默认值:true true:收集GPU指标,并且上报到prometheus | 
| enable_simple_lib64_mount | 否 | Bool | 默认值:true true:向容器里只挂载libxxx.so.x文件 | 
| enable_xgpu | 否 | Bool | 默认值:false XGPU虚拟化模式的开关 | 
| gpu_driver_config | 否 | Map | 针对单个节点池的GPU驱动的相关配置 默认值:{} | 
| health_check_xids_v2 | 否 | String | 插件健康检查的GPU错误的范围 默认值:"74,79" | 
| inject_ld_Library_path | 否 | String | 插件向GPU容器中自动注入的LD_LIBRARY_PATH环境变量的值 默认值:"" | 
| lib64_container_paths | 否 | String | Nvidia lib64在GPU容器里的挂载路径 默认值:"/usr/lib64,/usr/lib/x86_64-linux-gnu" | 
| metrics_delete_interval | 否 | int | 无法获取某个指标时,删除这个指标的超时阈值,单位毫秒 默认值:30000 | 
| metrics_monitor_interval | 否 | int | 获取指标的时间间隔,单位毫秒 默认值:15000 | 
| nvidia_driver_download_url | 是 | String | Nvidia驱动下载的路径 默认值:"" | 
请求示例
{
  "kind": "Addon",
  "apiVersion": "v3",
  "metadata": {
    "name": "gpu-beta",
  },
  "spec": {
    "clusterID": "80c9e306-***-***-***-0255ac100043",
    "version": "2.0.69",
    "addonTemplateName": "gpu-beta",
    "values": {
      "basic": {
        "cluster_version": "v1.27",
        "device_version": "2.0.69",
        "driver_version": "2.0.69",
        "obs_url": "***",
        "region": "***",
        "swr_addr": "***",
        "swr_user": "***"
      },
      "custom": {
        "compatible_with_legacy_api": true,
        "component_schedulername": "kube-scheduler",
        "disable_mount_path_v1": false,
        "disable_nvidia_gsp": true,
        "driver_mount_paths": "bin,lib64",
        "enable_fault_isolation": true,
        "enable_health_monitoring": true,
        "enable_metrics_monitoring": true,
        "enable_simple_lib64_mount": true,
        "enable_xgpu": true,
        "gpu_driver_config": {},
        "health_check_xids_v2": "74,79",
        "inject_ld_Library_path": "",
        "lib64_container_paths": "/usr/lib64,/usr/lib/x86_64-linux-gnu",
        "metrics_delete_interval": 30000,
        "metrics_monitor_interval": 15000,
        "nvidia_driver_download_url": ""
      },
    }
  }
}
   
  