监控中心FAQ
索引
为什么云原生监控插件在Server模式下,重启prometheus-server实例可能会导致节点列表的资源信息短时间(1-2分钟)无法正常显示?
因为当prometheus-server实例重启后,实例指标的uid标签值发生了变化。而由于Server模式本地存储了数据的机制,导致prometheus-server实例滚动重启的这段时间里指标重叠,即云原生监控插件上报到AOM的指标同时存在新老prometheus-server实例的指标,因而导致节点列表的资源信息不准确。故在指标重叠的这段时间内,不展示节点列表的资源信息。若无特殊场景,对接AOM推荐使用Agent模式的云原生监控插件。
为什么云原生监控插件在Server模式下,重启kube-state-metrics实例可能会导致页面部分数据翻倍?
当kube-state-metrics实例被调度到一个新的节点上,kube-state-metrics采集的指标中的instance标签值就发生了变化。而由于Server模式本地存储了数据的机制,导致kube-state-metrics滚动重启的这段时间里指标重叠,即云原生监控插件上报到AOM的指标同时存在新老kube-state-metrics实例的数据。又因为instance标签值不一致,这两次上报的指标都被认为是有效数据。从而导致“监控中心 > 集群”页面在统计的节点、工作负载、Pod、命名空间、控制面组件的数量时翻倍。若无特殊场景,对接AOM推荐使用Agent模式的云原生监控插件。
云原生监控插件Server模式下为什么不能正常上报指标?
出现该问题的原因可能为Server模式下插件实例挂载的PV存储空间已满,导致指标无法写入。
请到插件中心,选中prometheus-server-x实例,查看日志。如果日志中存在:“no space left on device”类似的日志打印,则说明Prometheus挂载的磁盘空间不足。
解决方案
- 方案一:推荐使用Agent模式,对接AOM实例。使用AOM托管指标数据,无需管理存储。
- 方案二:在左侧导航栏中选择“存储”,并切换至monitoring命名空间,选中pvc-prometheus-server-0的磁盘,扩容对应的存储资源。扩容完成后前往有状态负载页面,将prometheus-server的实例重启。
图6 扩容PVC
在磁盘空间不足后已无法写入Prometheus指标,将导致数据无法采集,因此扩容完成重启后,该时段的监控数据将会丢失。