集群因插件资源残留开启监控失败怎么办?
问题现象
- 集群开启监控时,接口返回报错,报错信息中含有“release name already exists”字段。
- 集群开启监控请求下发成功,但是监控状态为“安装失败”或“未知”,在开启监控页面查看kube-prometheus-stack插件接口,插件安装未成功原因含有“resource that already exists”字段。
原因分析
kube-prometheus-stack插件存在资源残留。
处理手段
可执行如下操作进行资源残留清理,并在清理后重新开启监控。
kubectl delete ns monitoring
kubectl delete ClusterRole cluster-problem-detector custom-metrics-resource-aggregated-reader event-exporter prometheus-operator prometheus-server ucsaddon-cie-collector-kube-state-metrics
kubectl delete ClusterRoleBinding ucsaddon-cie-collector-kube-state-metrics cluster-problem-detector event-exporter prometheus-operator prometheus-server
kubectl delete apiservice v1beta1.custom.metrics.k8s.io