通过AOM监控工作负载
工作负载监控是针对CCE、CCI工作负载的监控,通过工作负载监控您可以及时了解工作负载的资源使用、状态和告警等信息,以便快速响应处理告警或事件信息,保证工作负载顺畅运行。工作负载分为五种类型:无状态负载Deployment、有状态负载StatefulSet、守护进程DaemonSet、普通任务Job、容器组Pod。
功能介绍
- 工作负载监控方案开箱即用。开通AOM之后,在工作负载监控页面,CCE、CCI的工作负载状态、CPU使用率、物理内存使用率等信息默认呈现。
图1 工作负载监控
- 用户自建k8s容器监控方案,当前只支持通过Prometheus的remote_write功能,将容器指标写入AOM指标库,通过指标浏览查询相关指标信息。
- 工作负载监控是逐层下钻设计,层次关系为:工作负载->Pod实例->容器->进程,在界面上可直观查看各层关联关系。每层监控的内容包括指标、日志、告警等信息。
图2 工作负载的详细信息
约束与限制
- 负载(POD)至少需要执行1分钟,ICAgent才会上报负载资源。
- 在工作负载页面使用
对列表进行排序时,只能对列表中当前页的数据进行排序。 - 容器中的icagent工作负载默认分配的CPU配额为0.3核,内存配额为0.3G,如果要修改该配额值,建议该配额值不小于默认值,确保可以正常进行健康检查。
通过AOM监控工作负载
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“基础设施监控 >容器洞察 > 工作负载”。
- 在页面右上角设置工作负载信息的统计条件。
- 单击任一工作负载页签,即可在下方列表区域查看该工作负载的名称、状态、集群、命名空间等信息。
- 在工作负载列表上方可按集群、命名空间等设置搜索条件,实现工作负载过滤显示。
拥有AOM FullAccess或者AOM ReadOnlyAccess权限的IAM用户,查询命名空间时需要登录CCE控制台,在左侧导航栏中选择“权限管理”,单击页面右上角的“添加权限”,单独进行权限设置。其中CCE命名空间权限需授予用户或用户组全部命名空间的只读权限(view)或自定义权限。如果是自定义权限,需至少包含list操作权限,并指定namespaces资源。配置详情请参考:CCE命名空间权限。
- 单击右上角的
,可获取到3.a设置的时间范围内工作负载的最新信息。 - 单击右上角的
,通过选中/取消选中各展示项前的复选框,自定义列表项的展示/隐藏。 - 单击工作负载名称,可查看该工作负载的详细信息。
- 在“Pod实例”页签下,可查看该工作负载所有实例的概况。单击实例名称,可查看该实例下所有容器的资源使用与健康状态。
- 在“监控视图”页签下,可视化展示该工作负载的资源使用情况。
- 单击
设置查询时间,最长监控时间为90天。包括:相对时间、整点时间、自定义。
相对时间:表示查询距离当前时间1分钟、5分钟、15分钟等时间区间的数据。例如当前时间为19:20:31,设置相对时间1小时,表示查询18:20:31~19:20:31的数据。
整点时间:表示查询最近整点1分钟、15分钟等时间区间的数据。例如当前时间为19:20:31,设置整点时间1小时,表示查询18:00:00~19:00:00的数据。
自定义:表示查询指定时间范围的数据。
- 单击
,全屏查看监控视图。将光标移至屏幕上方,单击弹出的
,或者单击
,或者按键盘中的“Esc”可退出全屏模式。 - 单击
可手动刷新当前页面。
- 单击
- 在“日志”页签下,可查看该工作负载的原始日志、实时日志详情和进行日志可视化。
- 在“告警”页签下,可查看该工作负载的告警详情,详情请参见查看AOM告警或事件。
- 在“事件”页签下,可查看该工作负载的事件详情,详情请参见查看AOM告警或事件。
- 在工作负载列表上方可按集群、命名空间等设置搜索条件,实现工作负载过滤显示。
