CCE AI套件(NVIDIA GPU)
插件介绍
CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。
字段说明
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
basic |
是 |
object |
插件基础配置参数。 |
custom |
是 |
表3 object |
插件自定义参数 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
cluster_version |
否 |
String |
CCE集群版本 |
device_version |
是 |
String |
插件的版本 |
driver_version |
是 |
String |
插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 |
obs_url |
是 |
String |
当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 |
swr_addr |
是 |
String |
镜像仓库地址 |
swr_user |
是 |
String |
镜像仓库租户路径 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
compatible_with_legacy_api |
否 |
Bool |
API兼容开关 默认值:false true:插件支持GPU卡原生模式和XGPU虚拟化模式。 |
component_schedulername |
是 |
String |
插件使用的调度器的名字 默认值:default-scheduler |
disable_mount_path_v1 |
否 |
Bool |
默认值:false true:不将/opt/cloud/cce/nvidia挂载到GPU容器的/usr/lib/nvidia路径上 |
disable_nvidia_gsp |
否 |
Bool |
默认值:true true:关闭GPU的GSP firmware |
driver_mount_paths |
否 |
String |
自动挂载到GPU容器里的路径 默认值:"bin,lib64" |
enable_fault_isolation |
否 |
Bool |
默认值:true true:插件识别GPU硬件故障或驱动程序问题,设置GPU卡不可用 |
enable_health_monitoring |
否 |
Bool |
默认值:true true:插件能够识别GPU硬件故障或驱动程序问题 |
enable_metrics_monitoring |
否 |
Bool |
默认值:true true:收集GPU指标,并且上报到prometheus |
enable_simple_lib64_mount |
否 |
Bool |
默认值:true true:向容器里只挂载libxxx.so.x文件 |
enable_xgpu |
否 |
Bool |
默认值:false XGPU虚拟化模式的开关 |
gpu_driver_config |
否 |
Map |
针对单个节点池的GPU驱动的相关配置 默认值:{} |
health_check_xids_v2 |
否 |
String |
插件健康检查的GPU错误的范围 默认值:"74,79" |
inject_ld_Library_path |
否 |
String |
插件向GPU容器中自动注入的LD_LIBRARY_PATH环境变量的值 默认值:"" |
lib64_container_paths |
否 |
String |
Nvidia lib64在GPU容器里的挂载路径 默认值:"/usr/lib64,/usr/lib/x86_64-linux-gnu" |
metrics_delete_interval |
否 |
int |
无法获取某个指标时,删除这个指标的超时阈值,单位毫秒 默认值:30000 |
metrics_monitor_interval |
否 |
int |
获取指标的时间间隔,单位毫秒 默认值:15000 |
nvidia_driver_download_url |
是 |
String |
Nvidia驱动下载的路径 默认值:"" |
请求示例
{ "kind": "Addon", "apiVersion": "v3", "metadata": { "name": "gpu-beta", }, "spec": { "clusterID": "80c9e306-***-***-***-0255ac100043", "version": "2.0.69", "addonTemplateName": "gpu-beta", "values": { "basic": { "cluster_version": "v1.27", "device_version": "2.0.69", "driver_version": "2.0.69", "obs_url": "***", "region": "***", "swr_addr": "***", "swr_user": "***" }, "custom": { "compatible_with_legacy_api": true, "component_schedulername": "kube-scheduler", "disable_mount_path_v1": false, "disable_nvidia_gsp": true, "driver_mount_paths": "bin,lib64", "enable_fault_isolation": true, "enable_health_monitoring": true, "enable_metrics_monitoring": true, "enable_simple_lib64_mount": true, "enable_xgpu": true, "gpu_driver_config": {}, "health_check_xids_v2": "74,79", "inject_ld_Library_path": "", "lib64_container_paths": "/usr/lib64,/usr/lib/x86_64-linux-gnu", "metrics_delete_interval": 30000, "metrics_monitor_interval": 15000, "nvidia_driver_download_url": "" }, } } }