通过AOM监控集群

集群监控的对象为通过CCE部署的集群。“集群监控”功能可实时监控集群的多项基础监控指标（例如集群状态、CPU使用率、内存使用率、节点运行状态等）和相关的告警、事件数据，通过这些指标和相关的告警信息，用户可实时了解集群的运行状况，及时处理潜在风险，保障集群稳定运行。

约束与限制

主机状态包含“正常”、“异常”、“亚健康”、“通道静默”、“已删除”。当由于网络异常、主机下电、关机等原因导致的主机异常，或主机产生阈值告警时，主机状态为“异常”。
如果需要在AOM控制台中使用CCE的功能，需提前获取CCE的相关权限。

通过AOM监控集群

登录AOM 2.0控制台。
在左侧导航栏中选择“ > 集群监控”。
在页面右上角设置集群信息的统计条件。
1. 设置时间范围，查看已设时间范围内上报的CCE集群，您可以使用AOM预定义的时间标签，例如近1小时、近6小时等，也可以自定义时间范围，最长可设置为30天。
2. 设置信息的刷新频率。单击，根据需要从下拉列表中选择，例如，手动刷新、1分钟等。
按照按集群名称设置搜索条件，查看需要监控的集群；还可以按照创建时间、CPU使用率、内存使用率对集群进行排序。

单击集群名称，进入集群监控的详情页面。在左侧的导航栏，可以按集群、告警管理、仪表盘三个维度全面监控集群的运行状态。
- 按集群维度查看当前集群的节点、工作负载、Pod（容器组）和容器信息。
  - 在左侧导航栏选择“洞察 > 节点”，可实时获取到该集群下查看该集群所有主机节点的概况，包括状态、IP地址、Pod状态、CPU使用率和内存使用率等信息。
    - 在节点列表上方，可按节点名称设置过滤条件，实现节点列表过滤显示。
    - 单击右上角的，通过选中或取消选中各展示项后的单选框，自定义可选列的展示与隐藏。
    - 单击节点名称，可查看主机的相关资源、告警、事件等信息，并监控显卡、网卡等常用系统设备。
      - 在“概览”页签下，默认选择“云原生监控（New）”，可查看CPU、内存、网络等相关指标的信息。单击“通过ICAgent(Old)”，在下拉列表中选择需要监控的Prometheus实例，可查看CPU、物理内存、主机状态等信息。
        使用“云原生监控（New）”功能，需要接入容器 CCE Prometheus 实例。若集群还没有接入容器 CCE Prometheus 实例，可以单击页面中的“Prometheus监控”，创建Prometheus实例，详情请参见Prometheus实例 for CCE。创建完成后，单击实例名称，在实例详情页选择“集成中心”，一键接入CCE集群。
        
        单击右上角时间选择框，在下拉列表中选择AOM预定义好的时间标签或者自定义时间范围，查看已设时间范围内资源信息。
        
        单击右上角的，可实时获取到资源的最新信息。
        
        单击右上角的，可全屏展示资源信息。
      - 在“相关资源”页签下，展示该节点所在的容器组。
  - 在左侧导航栏选择“洞察 > 工作负载 ”，可查看该集群的所有工作负载状态和资源使用情况。
    - 在工作负载列表上方，可按负载名称设置过滤条件，实现工作负载过滤显示。
    - 单击右上角的，通过选中或取消选中各展示项后的单选框，自定义可选列的展示与隐藏。
    - 单击工作负载名称，可查看工作负载的相关资源、告警、事件和仪表盘信息。
      - 在“概览”页签下，默认选择“云原生监控（New）”，可查看CPU、内存、网络等相关指标的信息。单击“通过ICAgent(Old)”，在下拉列表中选择需要监控的Prometheus实例，可查看CPU、物理内存、文件系统等信息。
      - 在“相关资源”页签下，展示该工作负载所在的容器组。
  - 在左侧导航栏选择“洞察 > Pod（容器组）”，可查看该集群的所有Pod状态和资源使用情况。
    - 在容器组列表上方，可按容器组名称设置过滤条件，实现容器组过滤显示。
    - 单击右上角的，通过选中或取消选中各展示项后的单选框，自定义可选列的展示与隐藏。
    - 单击容器组名称，可查看容器组的相关资源、告警、事件和仪表盘信息。
      - 在“概览”页签下，默认选择“云原生监控（New）”，可查看CPU、内存、网络等相关指标的信息。单击“通过ICAgent(Old)”，在下拉列表中选择需要监控的Prometheus实例，可查看CPU、物理内存、文件系统等信息。
      - 在“相关资源”页签下，可按节点和节点名称、工作负载和负载名称、容器和容器名称查看当前容器组下的节点、工作负载、容器。
  - 在左侧导航栏选择“洞察 > 容器 ”，可查看该集群的所有容器状态和资源使用情况。
    - 在容器列表上方，可按容器名称设置过滤条件，实现容器过滤显示。
    - 单击右上角的，通过选中或取消选中各展示项后的单选框，自定义可选列的展示与隐藏。
    - 单击容器名称，可查看容器的相关资源、告警、事件和仪表盘信息。在“相关资源”页签下，默认展示该容器所在的容器组。可按节点和节点名称、工作负载和负载名称、容器组和容器组名称查看当前容器相关的节点、工作负载、容器组信息。
- 按告警管理维度查看当前集群的运行状态。
  - 在左侧导航栏选择“告警管理 > 告警列表”，可查看该集群的告警，详情请参见查看AOM告警或事件。
  - 在左侧导航栏选择“告警管理 > 事件列表”，查看该集群的事件详情，详情请参见查看AOM告警或事件。
  - 在左侧导航栏选择“告警管理> 告警规则”，查看该集群相关的告警规则，并可根据需要修改，详情请参见管理AOM告警规则。
- 在左侧导航栏选择“仪表盘”，可以查看当前集群的运行状态。
  - 已成功接入容器 CCE Prometheus 实例。
    在下拉列表中选择集群视图、Pod视图、主机视图、Node视图，查看该集群的CPU使用率、物理内存使用率等各种关键指标。
  - 没有接入容器 CCE Prometheus 实例。
    单击页面中的“Prometheus监控”，创建Prometheus实例，详情请参见Prometheus实例 for CCE。创建完成后，单击实例名称，在实例详情页选择“集成中心”，一键接入CCE集群。