更新时间:2024-05-11 GMT+08:00
分享

概述

应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,提供一站式可观测性分析和自动化运维方案,支持快速从云端、本地采集指标、日志和性能数据,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。

表1 功能说明

类别

说明

概览

以应用视角和容器视角提供常用服务或功能快速入口,实时监控并展示重点资源或应用数据。

接入中心

通过接入中心可快速接入需要监控的多场景、多层次、多维度指标数据,接入完成后,即可方便地在“指标浏览”等页面查看相关资源或应用的运行状态、各个指标的使用情况等信息。

仪表盘

通过仪表盘可将不同资源数据图表展示到同一个屏幕上,通过不同的图表形式来展示资源数据,例如,折线图、数字图、状态图等,帮助用户全面、深入地掌握监控数据。

告警管理

提供告警列表、事件列表、告警规则、告警模板、告警通知等功能。

  • 告警列表

    告警是指AOM自身或外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。

    告警列表展示已设时间范围内产生的告警。

  • 事件列表

    事件告诉您AOM自身或外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。

    事件列表展示已设时间范围内产生的事件。

  • 告警规则

    通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警。当资源的指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件,以便您在第一时间发现异常并进行处理。

  • 告警模板

    告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。

  • 告警通知

    AOM提供了告警通知功能,通过创建告警行动规则或告警降噪进行告警通知详细配置,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,将告警信息通过邮件、短信、企业微信等方式发送给指定的人员,以便提醒相关人员及时采取措施清除故障,避免造成业务损失。

指标浏览

指标浏览展示了各资源的指标数据,您可实时监控指标值及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看业务及分析数据关联分析。

日志分析

提供日志搜索、日志文件、日志路径、日志转储、接入LTS、日志流的功能。

  • 日志搜索

    当需要通过日志来分析和定位问题时,使用日志搜索功能可帮您快速在海量日志中查询到所需的日志,您还可结合日志的来源信息和上下文原始数据一起辅助定位问题。

  • 日志文件

    您可快速查看组件实例或主机的日志文件,以便定位问题。

  • 日志路径

    AOM支持虚机(这里的虚机指操作系统为Linux的弹性云服务器)日志采集,即采集您自定义的日志文件并展现在AOM界面中,以供您检索。

  • 日志转储

    AOM支持将日志转储到对象存储服务(Object Storage Service,简称OBS)的OBS桶中,以便进行长期存储。

  • 接入LTS

    通过添加接入规则,可以将AOM中的CCE、CCI或自定义集群的日志映射至LTS,通过LTS查看和分析日志。映射不会产生额外的费用(除重复映射外)。

  • 日志流

    提供日志搜索的功能。

应用洞察(日落)

主要提供应用监控、应用资源管理、日志接入功能。

  • 应用监控

    应用是您根据业务需要,对相同或者相近业务的一组组件进行逻辑划分,AOM提供以应用维度整体进行监控。

  • 应用资源管理

    将所有华为云上的资源对象与应用统一管理,并设置关联,为AOM上层运维场景服务提供准确、及时、一致的资源配置数据。

  • 日志接入

    将主机待采集日志的路径配置到日志流中,ICAgent将按照日志采集规则采集日志,并将多条日志进行打包,以日志流为单位发往AOM,您可以在AOM控制台实时查看日志。

Prometheus监控

提供实例列表、资源消耗功能。

  • 实例列表

    Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,可灵活扩展云原生组件指标插件。

  • 资源消耗

    通过Prometheus监控服务将指标数据上报到AOM后,即可在资源消耗”界面查看上报的基础指标和自定义指标数量,方便用户分析资源使用情况。

业务监控(BETA)

主要提供创建日志指标规则功能。

基础设施监控

主要提供工作负载监控、集群监控、主机监控、进程监控和云服务监控的功能。

  • 工作负载监控

    工作负载监控的对象通过CCE部署的工作负载,通过工作负载监控可及时了解工作负载的资源使用、状态和告警等信息。

  • 集群监控

    集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控展示集群的Pods运行状态、CPU使用率等信息。

  • 主机监控

    通过主机监控功能您可以及时了解主机的资源使用情况、趋势和告警信息,使用这些信息,您可以快速响应和处理异常,保证主机流畅运行。

  • 进程监控

    提供应用监控、组件监控和应用发现的功能。

    • 应用监控

      应用是您根据业务需要,对相同或者相近业务的一组组件进行逻辑划分。

    • 组件监控

      组件即您部署的服务,包括容器和普通进程。

    • 应用发现

      应用发现是指AOM通过配置的规则发现和收集您主机上部署的应用和关联的指标。

  • 云服务监控

    以曲线图、数字图等形式直观展示华为云各服务实例的运行状态、各个指标的使用情况等信息,并支持对监控项创建告警规则。

智能洞察(BETA)

持续监控您的应用和资源,通过历史数据和问题特征发现问题,并针对每个问题会给出相应的根因分析和建议。

采集管理

采集管理完成统一插件生命周期管理,并为AOM提供指令下发功能,如脚本下发和执行。UniAgent本身不提供数据采集能力,运维数据由不同的插件分工采集,插件按需安装、升级和卸载。后续逐步上线其它插件(如云监控和主机安全),统一规范管理。

自动化运维(日落)

自动化运维提供批量脚本执行、文件分发、云服务变更等原子操作功能,支持自定义编排原子操作并组装成作业和标准化运维流程。

设置

提供云服务授权,认证管理、全局开关的相关权限配置和数据订阅、菜单开关功能。

  • 云服务授权

    为当前用户一键授权多个云服务数据的访问权限。

  • 认证管理

    通过创建AccessCode可为当前用户配置API服务的调用权限。

  • 全局开关

    “指标采集开关”用来控制是否对指标数据进行采集(SLA指标、自定义指标除外)。“告警消息内容显示资源的TMS标签”开关用来控制告警通知的消息内容是否显示不同云资源的标签。

  • 数据订阅

    支持用户订阅指标或者告警信息,订阅后可以将数据转发到用户配置的DMS或Webhook中,供消费者消费转发的订阅的信息。

  • 菜单开关

    支持用户自定义选择是否在控制台导航栏中显示或隐藏“概览”、“应用洞察”、“自动化运维”、“云服务监控”、“日志流”以及“业务监控”的功能。

回到旧版

登录AOM 2.0 控制台,在左侧导航栏选择“返回旧版”,即可跳转至AOM 1.0的相关功能服务界面,AOM 1.0的相关操作请参见AOM 1.0用户指南

企业项目

一个企业项目可以包含一个或者多个应用。

登录AOM 2.0 控制台,在左侧导航栏“全部企业项目”的下拉列表中,根据需要选择企业项目。

企业项目功能当前受限开放,如有需要请联系工程师为您开放。

图1 企业项目
分享:

    相关文档

    相关产品