什么是应用运维管理
应用运维管理(Application Operations Management,简称AOM)是云上应用的全栈可观测平台,融合云监控(CES)、云日志(LTS)、应用性能监控(APM)、用户体验监控(APM)等多维度可观测数据源,提供指标、日志、调用链数据关联分析能力,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业运维的效率。
- 统一接入中心:提供全场景数据接入能力,支持业务层(安卓/IOS/WEB等)、组件层(JAVA/GO等多语言)、中间件层(Redis/Mysql等)、运行环境层(ECS/K8s等)、云服务层、API和开源协议(OpenTelemetry/Kafka等)各种方式接入指标、链路、日志数据,提供UniAgent采集器底座,支持各种数据采集插件生命周期管理能力。
- 统一告警管理:提供Prometheus、日志、云服务统一告警规则管理,统一告警模板管理,统一告警通知对象管理,预置100+告警模板,支持告警分组、抑制/静默等多种降噪方式,支持自定义消息模板和多种通知渠道(邮件/短信/语音/企业微信/钉钉/飞书/Webhook)。
- 统一监控大盘:支持自定义可视化大盘,提供表格、折线图、饼图、地图等多种可视化图表,预置30+开箱即用仪表盘,用户可以添加自定义变量和过滤器筛选数据,方便对指标/日志数据进行可视化运营分析。
- Prometheus监控:全面对接开源Prometheus生态,提供全托管的Prometheus服务,支持PromQL查询、Remote Read、Remote Write、可视化指标浏览,支持对接Grafana。
- 基础设施监控:支持采集主机(进程)、容器(工作负载/POD等)的监控数据,查看基础设施对象的可观测数据(例如主机的CPU使用率、内存使用率、磁盘使用率、主机上的日志等),并支持数据之间的关联分析。
- 日志管理:提供全场景日志采集、百亿日志秒搜、PB级存储、一站式日志加工、日志SQL可视化分析、日志转储等功能,满足应用运维、安全合规和运营分析等应用场景需求。
- 应用性能&用户体验监控:支持从Web端、App端到应用微服务、数据库、中间件的全链路时延、异常等分析能力,帮助运维人员快速定位链路故障根源,快速发现应用的性能瓶颈,为用户体验保驾护航。
- 云服务监控:为用户提供针对弹性云服务器、带宽等云服务资源的监控能力,使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。