更新时间:2025-10-14 GMT+08:00
分享

安装Device Plugin

  1. 执行以下命令进入插件安装目录。

    cd /mnt/deepseek/deploy/plugin

  2. 编辑modelarts-device-plugin/values.yaml文件。

    vi modelarts-device-plugin/values.yaml

  3. 将${image_tag}替换为表2中DevicePlugin插件镜像标签。

    image:
      repository: "swr.cn-east-4.myhuaweicloud.com"
      baseName: "modelarts-rse"
      name: "modelarts-device-plugin"
      tag: "${image_tag}"
    ...

  4. 确认节点/var/lib/kubelet/pod-resources/目录下是否存在kubelet.sock套接字文件。若存在,则可以直接执行步骤4;若不存在,则需要修改modelarts-device-plugin/templates/modelarts-device-plugin-daemonset.yaml文件中挂载路径。

    volumes:
      ...
      - name: pod-resources
        hostPath:
          path: /var/lib/kubelet/pod-resources   # 根据自建K8s指定路径中找到kubelet.sock文件所在路径,并修改该值,例如/root/kubernetes/var/lib/kubelet/pod-resources

  5. 在K8s control-plane控制平面节点上对所有纳管的NPU节点增加标注的标签,其中<node_name>为真实的节点名称,可以通过kubectl get no获取。

    kubectl label nodes <node_name> accelerator/huawei-npu="" --overwrite

  6. 执行如下命令部署 DevicePlugin。(需要先安装Helm

    helm install madp ./modelarts-device-plugin/ -f ./modelarts-device-plugin/values.yaml -n kube-system

  7. (可选)如果通过其他方式安装过DevicePlugin,需要先删除原有DevicePlugin。

    kubectl delete ds modelarts-device-plugin -n kube-system
    kubectl delete serviceaccount modelarts-device-plugin -n kube-system
    kubectl delete clusterrole system:modelarts-device-plugin
    kubectl delete clusterrolebinding system:modelarts-device-plugin

  8. 执行下面的命令确认DevicePlugin实例是否部署成功。

    kubectl get po -n kube-system | grep device-plugin

相关文档