更新时间:2024-05-11 GMT+08:00
分享

运维监控原则

  1. 当应用部署在公有云上,云平台需提供已开通资源的监控能力,包括计算、存储、网络、数据库等云服务资源。资源监控指标反馈资源的运行状态、资源消耗和性能参数等,运维人员可根据不同参数配置相应的阈值告警,当资源异常时通过短信或邮件等方式通知。除了开箱即用的指标数据以外,部分云服务提供完整的日志采集、上报和存储能力,如负载均衡、VPC、WAF等服务日志,应用日志通过安装代理采集并集中管理。通过日志洞察完成日志聚合查询,可视化分析和实时告警。
  2. 业务监控指标,如业务登录成功率等。可通过ELB(弹性负载均衡)日志洞察分析,日志系统对该日志ETL后,提取业务URL请求,状态码、访问IP、时延等关键数据,通过SQL聚合可得到不同时间段内业务的运行状态,配置SQL阈值规则可实现业务的实时监控,如下图所示。
    图1 业务监控指标
  3. 运维人员可根据资源和应用维度选择监控服务,满足多层次运维要求。下表列出各云服务提供的监控能力。
    表1 云服务提供的监控能力

    分类

    云服务

    数据

    数据描述

    资源监控

    CES

    指标

    提供云资源,如虚机/网络/存储等100+云服务开箱即用指标监控。

    指标告警

    CES

    告警

    自定义指标阈值规则,如CPU超过90%。

    告警通知

    SMN

    告警

    统一通知服务,支持短信/邮箱/钉钉/微信/webhook等方式。

    事件告警

    CES

    事件

    支持事件类型告警,如EIP带宽超限事件告警。

    资源分组

    CES

    指标

    将云资源按照项目或应用维度划分资源组,满足企业权限控制。

    日志监控

    LTS

    日志

    提供应用/云资源/移动端等日志采集,满足运维日志集中管理能力。

    日志告警

    LTS

    告警

    支持关键词和SQL告警规则,提供日志实时监控能力。

    日志报表

    LTS

    日志

    提供日志可视化能力,包括图表、柱状图、饼图,同时支持仪表盘和模板能力。

    日志备份

    LTS

    日志

    将日志转储OBS,提供冷备份,支持跨账号转储。

    日志订阅

    LTS

    日志

    将日志转储至kafka,实时消费日志,支持跨账号转储。

    业务监控

    LTS

    日志

    LTS收集业务日志并对其结构化处理,提供可视化分析。或直接将ELB日志提取成业务指标。

    容器监控

    AOM

    监控

    当使用CCE容器引擎,AOM将提供一站式容器应用的监控、告警和日志分析;

    性能监控

    APM

    性能

    提供应用性能分析,包括应用拓扑、分布式链路追踪等能力。

相关文档