文档首页/ 华为云UCS/ 常见问题/ 容器智能分析/ 集群因插件资源残留开启监控失败怎么办?
更新时间:2024-09-11 GMT+08:00

集群因插件资源残留开启监控失败怎么办?

问题现象

  • 集群开启监控时,接口返回报错,报错信息中含有“release name already exists”字段。
  • 集群开启监控请求下发成功,但是监控状态为“安装失败”或“未知”,在开启监控页面查看kube-prometheus-stack插件接口,插件安装未成功原因含有“resource that already exists”字段。

原因分析

kube-prometheus-stack插件存在资源残留。

处理手段

可执行如下操作进行资源残留清理,并在清理后重新开启监控。

kubectl delete ns monitoring

kubectl delete ClusterRole cluster-problem-detector custom-metrics-resource-aggregated-reader event-exporter prometheus-operator prometheus-server ucsaddon-cie-collector-kube-state-metrics

kubectl delete ClusterRoleBinding ucsaddon-cie-collector-kube-state-metrics cluster-problem-detector event-exporter prometheus-operator prometheus-server

kubectl delete apiservice v1beta1.custom.metrics.k8s.io