更新时间:2025-12-19 GMT+08:00
分享

通过AOM监控工作负载

工作负载监控是针对CCE、CCI工作负载的监控,通过工作负载监控您可以及时了解工作负载的资源使用、状态和告警等信息,以便快速响应处理告警或事件信息,保证工作负载顺畅运行。工作负载分为五种类型:无状态负载Deployment、有状态负载StatefulSet、守护进程DaemonSet、普通任务Job、容器组Pod。

功能介绍

  • 工作负载监控方案开箱即用。开通AOM之后,在工作负载监控页面,CCE、CCI的工作负载状态、CPU使用率、物理内存使用率等信息默认呈现。
    图1 工作负载监控
  • 用户自建k8s容器监控方案,当前只支持通过Prometheus的remote_write功能,将容器指标写入AOM指标库,通过指标浏览查询相关指标信息。
  • 工作负载监控是逐层下钻设计,层次关系为:工作负载->Pod实例->容器->进程,在界面上可直观查看各层关联关系。每层监控的内容包括指标、日志、告警等信息。
    图2 工作负载的详细信息

约束与限制

  • 负载(POD)至少需要执行1分钟,ICAgent才会上报负载资源。
  • 在工作负载页面使用对列表进行排序时,只能对列表中当前页的数据进行排序。
  • 容器中的icagent工作负载默认分配的CPU配额为0.3核,内存配额为0.3G,如果要修改该配额值,建议该配额值不小于默认值,确保可以正常进行健康检查。

通过AOM监控工作负载

  1. 登录AOM 2.0控制台
  2. 在左侧导航栏中选择“基础设施监控 >容器洞察 > 工作负载”。
  3. 在页面右上角设置工作负载信息的统计条件。

    1. 设置时间范围,查看已设时间范围内上报的工作负载,您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。
    2. 设置信息的刷新频率。单击,根据需要从下拉列表中选择,例如,手动刷新、1分钟等。

  4. 单击任一工作负载页签,即可在下方列表区域查看该工作负载的名称、状态、集群、命名空间等信息。

    • 在工作负载列表上方可按集群、命名空间等设置搜索条件,实现工作负载过滤显示。

      拥有AOM FullAccess或者AOM ReadOnlyAccess权限的IAM用户,查询命名空间时需要登录CCE控制台,在左侧导航栏中选择“权限管理”,单击页面右上角的“添加权限”,单独进行权限设置。其中CCE命名空间权限需授予用户或用户组全部命名空间的只读权限(view)或自定义权限。如果是自定义权限,需至少包含list操作权限,并指定namespaces资源。配置详情请参考:CCE命名空间权限

    • 单击右上角的,可获取到3.a设置的时间范围内工作负载的最新信息。
    • 单击右上角的,通过选中/取消选中各展示项前的复选框,自定义列表项的展示/隐藏。
    • 单击工作负载名称,可查看该工作负载的详细信息。
      • 在“Pod实例”页签下,可查看该工作负载所有实例的概况。单击实例名称,可查看该实例下所有容器的资源使用与健康状态。
      • 在“监控视图”页签下,可视化展示该工作负载的资源使用情况。
        • 单击设置查询时间,最长监控时间为90天。包括:相对时间、整点时间、自定义。

          相对时间:表示查询距离当前时间1分钟、5分钟、15分钟等时间区间的数据。例如当前时间为19:20:31,设置相对时间1小时,表示查询18:20:31~19:20:31的数据。

          整点时间:表示查询最近整点1分钟、15分钟等时间区间的数据。例如当前时间为19:20:31,设置整点时间1小时,表示查询18:00:00~19:00:00的数据。

          自定义:表示查询指定时间范围的数据。

        • 单击,全屏查看监控视图。将光标移至屏幕上方,单击弹出的,或者单击,或者按键盘中的“Esc”可退出全屏模式。
        • 单击可手动刷新当前页面。
      • 在“日志”页签下,可查看该工作负载的原始日志、实时日志详情和进行日志可视化。
      • 在“告警”页签下,可查看该工作负载的告警详情,详情请参见查看AOM告警或事件
      • 在“事件”页签下,可查看该工作负载的事件详情,详情请参见查看AOM告警或事件

相关文档