更新时间:2024-06-17 GMT+08:00
分享

监控中心FAQ

为什么监控中心没有数据了?

  • 可能原因一:云原生监控插件异常

    请前往集群详情的“插件中心”页面,先检查插件云原生监控插件是否为“运行中”。

    图1 检查插件运行状态

    如果插件运行异常,可以根据云原生监控插件的实例的事件进行排查。

    图2 查看插件事件
  • 可能原因二:云原生监控插件对接的AOM实例被删除

    请在集群详情的“插件中心”页面,检查插件云原生监控插件的配置。

    图3 编辑插件配置

    确认AOM实例非空。

    图4 查看AOM实例

如何关闭监控中心?

如需关闭监控中心,请前往CCE控制台“插件管理”页面卸载云原生监控插件,或者关闭AOM对接,即可以停止使用该功能。

监控中心为什么没有展示自定义指标?

监控中心暂不支持用户自定义指标的展示,如果需要查看自定义指标,可以到AOM服务监控中心的仪表盘配置自定义指标的仪表盘。详情请参见创建仪表盘

为什么云原生监控插件在Server模式下,重启prometheus-server实例可能会导致节点列表的资源信息短时间(1-2分钟)无法正常显示?

因为当prometheus-server实例重启后,实例指标的uid标签值发生了变化。而由于Server模式本地存储了数据的机制,导致prometheus-server实例滚动重启的这段时间里指标重叠,即云原生监控插件上报到AOM的指标同时存在新老prometheus-server实例的指标,因而导致节点列表的资源信息不准确。故在指标重叠的这段时间内,不展示节点列表的资源信息。若无特殊场景,对接AOM推荐使用Agent模式的云原生监控插件。

为什么云原生监控插件在Server模式下,重启kube-state-metrics实例可能会导致页面部分数据翻倍?

当kube-state-metrics实例被调度到一个新的节点上,kube-state-metrics采集的指标中的instance标签值就发生了变化。而由于Server模式本地存储了数据的机制,导致kube-state-metrics滚动重启的这段时间里指标重叠,即云原生监控插件上报到AOM的指标同时存在新老kube-state-metrics实例的数据。又因为instance标签值不一致,这两次上报的指标都被认为是有效数据。从而导致“监控中心 > 集群”页面在统计的节点、工作负载、Pod、命名空间、控制面组件的数量时翻倍。若无特殊场景,对接AOM推荐使用Agent模式的云原生监控插件。

云原生监控插件Server模式下为什么不能正常上报指标?

出现该问题的原因可能为Server模式下插件实例挂载的PV存储空间已满,导致指标无法写入。

请到插件中心,选中prometheus-server-x实例,查看日志。如果日志中存在:“no space left on device”类似的日志打印,则说明Prometheus挂载的磁盘空间不足。

图5 查看Prometheus实例日志

解决方案

  • 方案一:推荐使用Agent模式,对接AOM实例。使用AOM托管指标数据,无需管理存储。
  • 方案二:在左侧导航栏中选择“存储”,并切换至monitoring命名空间,选中pvc-prometheus-server-0的磁盘,扩容对应的存储资源。扩容完成后前往有状态负载页面,将prometheus-server的实例重启。
    图6 扩容PVC

    在磁盘空间不足后已无法写入Prometheus指标,将导致数据无法采集,因此扩容完成重启后,该时段的监控数据将会丢失。

分享:

    相关文档

    相关产品