运维监控原则
- 当应用部署在公有云上,云平台需提供已开通资源的监控能力,包括计算、存储、网络、数据库等云服务资源。资源监控指标反馈资源的运行状态、资源消耗和性能参数等,运维人员可根据不同参数配置相应的阈值告警,当资源异常时通过短信或邮件等方式通知。除了开箱即用的指标数据以外,部分云服务提供完整的日志采集、上报和存储能力,如负载均衡、VPC、WAF等服务日志,应用日志通过安装代理采集并集中管理。通过日志洞察完成日志聚合查询,可视化分析和实时告警。
- 业务监控指标,如业务登录成功率等。可通过ELB(弹性负载均衡)日志洞察分析,日志系统对该日志ETL后,提取业务URL请求,状态码、访问IP、时延等关键数据,通过SQL聚合可得到不同时间段内业务的运行状态,配置SQL阈值规则可实现业务的实时监控,如下图所示。
图1 业务监控指标
- 运维人员可根据资源和应用维度选择监控服务,满足多层次运维要求。下表列出各云服务提供的监控能力。
表1 云服务提供的监控能力 分类
云服务
数据
数据描述
资源监控
CES
指标
提供云资源,如虚机/网络/存储等100+云服务开箱即用指标监控。
指标告警
CES
告警
自定义指标阈值规则,如CPU超过90%。
告警通知
SMN
告警
统一通知服务,支持短信/邮箱/钉钉/微信/webhook等方式。
事件告警
CES
事件
支持事件类型告警,如EIP带宽超限事件告警。
资源分组
CES
指标
将云资源按照项目或应用维度划分资源组,满足企业权限控制。
日志监控
LTS
日志
提供应用/云资源/移动端等日志采集,满足运维日志集中管理能力。
日志告警
LTS
告警
支持关键词和SQL告警规则,提供日志实时监控能力。
日志报表
LTS
日志
提供日志可视化能力,包括图表、柱状图、饼图,同时支持仪表盘和模板能力。
日志备份
LTS
日志
将日志转储OBS,提供冷备份,支持跨账号转储。
日志订阅
LTS
日志
将日志转储至kafka,实时消费日志,支持跨账号转储。
业务监控
LTS
日志
LTS收集业务日志并对其结构化处理,提供可视化分析。或直接将ELB日志提取成业务指标。
容器监控
AOM
监控
当使用CCE容器引擎,AOM将提供一站式容器应用的监控、告警和日志分析;
性能监控
APM
性能
提供应用性能分析,包括应用拓扑、分布式链路追踪等能力。