更新时间:2024-09-29 GMT+08:00

开通监控中心

开通监控中心将在集群中安装云原生监控插件,该插件提供监控中心的指标采集功能。开通后,监控中心将采集集群中的指标并上报至AOM实例。本章节介绍如何为集群开通监控中心功能。

  • 开通监控中心后,集群中的指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情
  • 云原生监控插件在集群中运行需要消耗集群资源,请确保集群资源能够满足插件的安装。具体资源消耗可以前往“插件中心”云原生监控插件安装页面获取。

前提条件

开通监控中心前,用户需要使用具有admin用户组的账户完成对CCE及其依赖服务的委托授权。

授权方式:监控中心页面自动弹出“确认授权”页面,用户单击“确认授权”按钮后系统自动完成授权。所授予的权限类型请参考资源权限

约束与限制

  • 集群版本仅支持v1.17及以上。
  • 使用监控中心前,用户需要使用具有admin用户组的账户完成对CCE及其依赖服务的委托授权。授权完成后,拥有CCE Administrator角色或CCE FullAccess权限的用户可进行监控中心所有操作;拥有CCE ReadOnlyAccess权限的用户可以查看所有资源信息,但是无法进行任何操作。
  • 集群中未安装用户自建的Prometheus或Prometheus(停止维护)插件。

开通监控中心

  • 购买集群时开通
    1. 登录云容器引擎控制台,购买集群。
    2. 在“插件选择”页面,勾选云原生监控插件。
    3. 在“插件配置”页面,选择云原生监控插件需要对接的AOM实例。如AccessCode未创建,请先创建AccessCode。
      图1 启用容器监控
    4. 集群创建完成后,在“节点管理”中创建节点。待节点创建成功后,云原生监控插件将自动部署至节点上。
  • 在监控中心页面开通
    1. 在目标集群左侧导航栏选择“监控中心”。
    2. 单击“立即开通”,并选择指标上报的AOM实例。
      图2 开通监控中心
    3. 开通成功后,等待3-5分钟,监控数据将上报至AOM实例,随即可以使用监控中心相关功能。
  • 在插件管理页面开通
    1. 在目标集群左侧导航栏选择“插件中心”。
    2. 选择云原生监控插件,单击“安装”。
    3. 请选择“监控数据上报至AOM服务”,其余两项数据存储配置可按需选择。
      图3 安装云原生监控插件
    4. 插件安装完成3-5分钟后,监控数据将上报至AOM实例,随即可以使用监控中心相关功能。

如需关闭监控中心,请前往CCE控制台“插件管理”页面卸载云原生监控插件,或关闭AOM对接,即可以停止使用该功能。

常见问题

  • 监控中心开通失败,插件状态异常。

    解决方案:请前往“插件管理”页面查看已安装插件列表,单击云原生监控插件名称,展开实例列表,检查状态为异常的Pod的事件,根据界面报错信息排查异常原因。

    图4 插件状态异常
  • 成功进入监控中心页面,但页面数据为空。

    解决方案:

    1. 请前往“插件中心”页面查看已安装插件列表,单击云原生监控插件名称,展开实例列表,检查Prometheus的实例是否正常运行。如果未正常运行,请查询Pod的事件,获取异常信息。

      例如:报错信息为实例调度失败:0/6 nodes are available: 1 Insufficient cpu, 2 node(s) had taint {cie.manage: proxy}, that the pod didn't tolerate, 3 node(s) had taint {node.kubernetes.io/unreachable: }, that the pod didn't tolerate,说明当前集群中总共6台节点,1台节点CPU不足,剩下的5台节点标记有污点,导致Pod无法调度。

    2. 如果插件状态正常,则可以查询prometheus实例的日志,检查日志中是否存在报错日志。如果日志中含有remote_write相关的报错信息,则表示指标上报时失败,请检查指标上报的网络是否通畅。