可观测性体系概述
云原生可观测性是指在云原生架构中,通过使用各种工具和技术来实现对应用程序和基础设施的监控告警、日志、故障排除等功能的一套完整的解决方案。本文介绍云容器引擎CCE可观测性架构分层和主要的可观测能力,以帮助您对CCE云原生可观测性生态有一个全面的认识。
从架构分层的角度,CCE可观测性分为四个层次。自下而上分别为:算力底座、数据采集、监控与日志、云原生观测。
算力底座
云容器引擎CCE支持多种类型的集群创建,包括CCE Turbo集群与CCE Standard集群,以满足您各种业务需求。CCE集群相关介绍请前往CCE产品介绍。CCE服务为不同的集群类型,提供统一的数据采集方案与一致云原生观测体验。
数据采集
指标采集:CCE提供基于Prometheus的云原生监控插件,相比于开源版本,具备轻量化,开箱即用等优势。详情请参见云原生监控插件。
日志采集:CCE提供基于fluent-bit和opentelemetry的云原生日志采集插件,具备高性能,资源占用低的优点;同时支持基于CRD的日志采集策略配置,更加灵活易用。详情请参见云原生日志采集插件。
监控与日志
AOM:应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。
LTS:云日志服务(Log Tank Service,简称LTS),用于收集来自主机和云服务的日志数据,通过海量日志数据的分析与处理,可以将云服务和应用程序的可用性和性能最大化,为您提供实时、高效、安全的日志处理能力,帮助您快速高效地进行实时决策分析、设备运维管理、用户业务趋势分析等。
云原生观测
CCE云原生观测相关的功能包括健康中心、监控中心、日志中心、告警中心等。以下分别介绍CCE云原生观测的主要功能。
- 健康中心
集群健康诊断基于容器运维专家经验对集群健康状况进行全面检查,能够及时发现集群故障与潜在风险并给出修复建议。
- 监控中心
监控中心提供不同维度的数据洞察、仪表盘等功能。监控中心提供容器视角的可视化视图,支持集群、节点、工作负载和Pod等多种维度的监控视图,支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘,如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。
- 日志中心
CCE日志中心集成了云日志服务LTS。启用日志采集与管理,您可以快速采集CCE控制面组件日志(kube-apiserver、kube-controller-manager、kube-scheduler)、kubernetes审计日志、Kubernetes事件和容器日志(容器的标准输出、容器内的文本文件、节点日志)。
- 告警中心
告警中心集成应用运维管理服务AOM2.0的告警功能,提供容器告警一键开启能力,覆盖集群和容器常见故障场景。
资源权限
由于云原生观测相关的功能在运行中对监控、告警、通知服务等各类云服务资源都存在依赖关系,因此当您首次使用云原生观测相关的功能时,系统将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。
具体授予的权限如下表:
授权类型 |
权限名称 |
描述 |
---|---|---|
CCE |
IAM ReadOnlyAccess |
监控中心、告警中心获得该权限后,支持子用户访问监控中心与告警中心,因此需要获得该权限。 |
CCE |
Tenant Guest |
监控中心、告警中心支持对集群关联的OBS、DNS等全局资源配置进行检查,提前发现配置问题,因此需要获得该权限。 |
CCE |
CCE Administrator |
监控中心、告警中心在运行过程中需要访问CCE获取集群、节点、工作负载等信息,以此来检测对应资源的健康状态,因此需要获得该权限。 |
CCE |
SWR Administrator |
监控中心、告警中心在运行过程中需要访问SWR获取镜像信息,因此需要获得该权限。 |
CCE |
SMN Administrator |
监控中心、告警中心在运行过程中需要访问SMN获取联系组信息,因此需要获得该权限。 |
CCE |
AOM Administrator |
监控中心、告警中心在运行过程中需要访问AOM获取监控指标信息,因此需要获得该权限。 |
CCE |
LTS Administrator |
监控中心、告警中心在运行过程中需要访问LTS获取日志信息,因此需要获得该权限。 |
AOM |
DMS UserAccess |
AOM支持用户通过DMS获取数据订阅的功能,因此需要获得该权限。 |
AOM |
ECS CommonOperations |
AOM支持通过在ECS上安装UniAgent和ICAgent获取系统指标、日志数据,因此需要获得该权限。 |
AOM |
CES ReadOnlyAccess |
AOM支持从CES同步监控指标数据,因此需要获得该权限。 |
AOM |
CCE FullAccess |
AOM支持从CCE同步容器监控指标数据,因此需要获得访问权限。 |
AOM |
RMS ReadOnlyAccess |
AOM的CMDB支持管理云服务实例数据,因此需要获得该权限。 |
AOM |
ECS ReadOnlyAccess |
AOM支持通过在ECS上安装UniAgent和ICAgent获取系统指标、日志数据,因此需要获得该权限。 |
AOM |
LTS FullAccess |
AOM支持访问LTS数据,因此需要获得该权限。 |
AOM |
CCI FullAccess |
AOM支持从CCI同步容器监控指标数据,因此需要获得该权限。 |
当您同意授权后,将在IAM中自动创建账号委托,将账号内的其他资源操作权限委托给华为云CCE服务和华为云AOM服务进行操作。关于委托详情,您可参考委托其他云服务管理资源进行了解。自动创建的委托如下:
- cia_admin_trust
cia_admin_trust委托具有全局的Tenant Guest、IAM ReadOnlyAccess权限,区域级的Tenant Guest、CCE Administrator、SWR Administrator权限,用于对云原生观测功能所依赖的其他云服务资源进行调用。
如果您在多个区域中使用CCE服务的云原生观测功能,则需在每个区域中分别申请Tenant Guest、CCE Administrator、SWR Administrator的云资源权限。您可前往“IAM控制台 > 委托”页签,单击“cia_admin_trust”查看各区域的授权记录。
- aom_admin_trust
aom_admin_trust委托的说明请参见AOM云服务授权。
由于云原生观测功能对其他云服务有许多依赖,如果没有所需的权限,可能会因为某个服务权限不足而影响云原生观测功能的正常使用。因此在使用云原生观测功能期间,请不要自行删除或者修改“cia_admin_trust”、“aom_admin_trust”委托。