更新时间:2024-09-27 GMT+08:00

快速管理应用

本章节介绍在“总览”页面的应用视角下,如何通过AOM快速管理应用,包括应用创建到发现、监控等操作。主要操作如下:

  1. 创建应用:通过CMDB创建应用和资源关系树,在应用所在主机安装采集器。
  2. 配置告警:创建指标告警规则,应用异常时发送通知。
  3. 配置告警行动规则:配置告警处理策略,如应用异常时自动重启。

当前“概览”功能默认关闭,如需使用,需提前在“菜单开关”中开启概览的开关,详细操作请参见菜单开关

创建应用

  1. 登录AOM 2.0控制台。
  2. 在左侧导航栏单击“概览”,即可进入“概览”页面。
  3. 在“概览”页面切换为“应用视角”。

    图1 切换视角

  4. 在快速入门区域,单击“创建应用”,进入“应用管理”页面。
  5. 创建应用。

    1. 单击右上角的“创建应用”,在弹出的“创建应用”页面中,设置创建应用的相关参数。
      图2 创建应用
      表1 创建应用参数说明

      参数名称

      说明

      唯一标识

      应用的唯一标识。

      支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线和点组成。

      应用名称

      应用的名称。

      支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。

      企业项目

      华为云企业项目,请从下列列表中选择。

      如果现有的项目无法满足需求,可单击“创建项目”添加。

      描述

      应用的描述信息,最多可输入255个字符。

    2. 设置完成后,单击“确认”。

  6. 为创建的应用添加节点,包括组件和子应用。有以下两种方式:

    • 应用创建完成后,单击“继续创建应用树节点”。
      图3 创建子应用
    • 在左侧导航栏中选择“应用管理”,进入“应用管理”页面。在左侧树节点的应用名称后,单击
      图4 应用树
    1. 配置节点信息,设置子节点类型和名称等信息。
      图5 添加节点
      表2 节点设置参数说明

      参数类别

      参数名称

      说明

      组件设置相关参数

      组件名称

      组件的名称。

      支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。

      描述

      组件的描述信息,最多可输入255个字符。

      子应用设置相关参数

      唯一标识

      子应用的唯一标识。

      支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线和点组成。

      子应用名称

      子应用的名称。

      支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。

      描述

      子应用的描述信息,最多可输入255个字符。

      • 同一个应用下,最多可创建3层子应用。
      • 同一个应用下,最多可创建50个子应用。
      • 同一个应用下,最多可创建50个组件。
    2. 设置完成后,单击“确认”。

  7. 根据主机、区域等信息为组件添加不同的环境,方便统一管理各资源或应用。

    1. 在左侧树节点,将光标移至待操作的组件名称后,单击
    2. 在“添加环境”页面中,设置环境类型、主机类型等信息。
      图6 添加环境
      表3 添加环境

      参数名称

      说明

      环境类型

      环境的类型。目前支持环境类型有四种:开发、测试、预发布和生产。

      主机类型

      主机的类型。目前支持的主机类型有:LINUX和WINDOWS。

      环境名称

      环境的名称。

      支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。

      区域

      环境的区域,请从下拉列表中选择。

      描述

      环境的描述信息,最多可输入255个字符。

      同一组件下最多可创建20个环境。

    3. 设置完成后,单击“确认”。

      为组件创建对应环境后,即可为环境关联相关资源实例,后续可通过应用监控功能实时监控资源的使用情况。

  8. 在右侧选择需要的资源类型,建立应用与资源关联。

    1. 在左侧树节点选中待操作的环境,在右侧区域单击资源页签,在下方列表区域单击“关联资源”。
    2. 从资源列表中选择合适的资源实例。

      资源列表仅展示与应用企业项目相同的资源。

      图7 关联资源
    3. 设置完成后,单击“关联”。

      如果关联的资源为云服务器ECS资源,需要单击“关联资源&安装Agent”,在关联资源后继续完成Agent安装。

配置告警

按照配置方式的不同,创建指标告警规则可分为:按全量指标创建按Prometheus命令创建

下面的操作以按全量指标创建告警规则为例说明。

  1. 在“总览”页面切换为“应用视角”。
  2. 在快速入门区域,单击“配置告警”,进入“告警规则”页面。
  3. 单击 “创建告警规则”。
  4. 设置告警规则基本信息,具体的参数说明如表4所示。

    表4 基本信息填写说明

    参数名称

    说明

    规则名称

    规则名称。最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入特殊字符。

    企业项目

    所属的企业项目。

    • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
    • 如果在全局页面已选择企业项目,则此处灰化不可选。

    描述

    规则的描述信息,最多可输入1024个字符。

  5. 设置告警规则的详细信息。

    1. 选择“规则类型”为“指标告警规则”。
    2. 选择指标配置方式为“全量指标”。
    3. 从下拉列表选择需要创建告警的Prometheus实例。
    4. 设置告警规则详情。具体的参数说明如表5所示。

      设置完成后,监控的指标数据以折线图形式显示在告警条件上方,最多支持展示50条指标数据,单击每条指标数据前的折线符号可将对应指标数据在当前图表中隐藏。单击“新增指标”可多次添加监控指标,并为指标设置统计周期和检测规则等信息。

      将光标移动到指标数据和对应告警条件后,还可以根据需要执行以下操作:

      • 单击告警条件后的,可将对应行的指标数据在当前图表中隐藏。
      • 单击告警条件后的,可将对应行的指标数据和告警条件转换为Prometheus命令。
      • 单击告警条件后的,可快速复制对应行的指标数据及告警条件等信息,并根据需要修改。
      • 单击告警条件后的,可删除对应行指标数据的监控。
      图8 设置告警规则详情
      表5 告警规则详情填写说明

      参数名称

      参数说明

      多指标

      按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。

      例如,设置了三个告警条件,则系统按照三个告警条件分别计算,只要满足任意一条则触发告警。

      混合运算

      将设置的多个指标数据和告警条件按照表达式计算后,满足条件则触发告警。

      例如,查看主机的CPU内核占用率,没有直接可用的指标,可以按如下方案设置:

      • 告警条件a的指标设置为“aom_node_cpu_used_core”,其余参数采用默认设置。该指标用于统计测量对象已经使用的CPU核个数。
      • 告警条件b的指标设置为“aom_node_cpu_limit_core”,其余参数采用默认设置。该指标用于统计测量对象申请的CPU核总量。
      • 表达式设置为“a/b”,最终计算结果即为主机的CPU内核占用率。
      • 检测规则设置为“最大值>0.2”。
      • 触发条件设置为“连续周期:3”
      • 告警级别设置为“紧急”。

      当连续3个统计周期,主机CPU内核占用率的最大值大于0.2时,则触发紧急告警。

      指标

      需要监控的指标。通过“全量指标”方式选择指标时,仅支持英文展示和英文搜索。

      单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。

      统计周期

      指标数据按照所设置的统计周期进行聚合,包括:15秒、30秒、1分钟、5分钟、15分钟、1小时。

      条件

      指标监控的维度。不设置则表示选中全部资源。

      指标的条件为key:value键值对格式,维度名称可从下拉列表中直接选择,维度值根据匹配方式的不同,设置方式不同:

      • 匹配方式为“=”:此时维度值可从下拉列表中直接选择。例如,维度名称设置为“主机名称”,维度值设置为“192.168.16.4”,表示只监控主机名为“192.168.16.4”的资源。
      • 匹配方式为“!=”:此时维度值可从下拉列表中直接选择。例如,维度名称设置为“主机名称”,维度值设置为“192.168.16.4”,表示监控除主机名为“192.168.16.4”的资源外的其他资源。
      • 匹配方式为“=~”:此时维度值根据设置的一个或多个正则表达式确定,多个正则表达式间通过“|”间隔。例如,维度名称设置为“主机名称”,正则表达式设置为“192.*|172.*”,表示只监控主机名为“192.*”和“172.*”的资源。
      • 匹配方式为“!~”:此时维度值根据设置的一个或多个正则表达式确定,多个正则表达式间通过“|”间隔。例如,维度名称设置为“主机名称”,正则表达式设置为“192.*|172.*”,表示监控除主机名为“192.*”和“172.*”的资源外的其他资源。

      正则表达式的输入请参见正则表达式输入说明

      单击,通过AND、OR关键词可为同一指标设置多个监控条件。

      分组条件

      指标数据按指定字段分组聚合,对聚合的结果进行运算。包括:不分组、avg by、max by、min by、sum by。例如,分组条件设置为:avg by clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。

      检测规则

      指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。

      触发条件

      连续多少个周期满足阈值条件后,触发指标告警。连续周期的取值范围为1~30。

      例如,设置连续周期为“2”,则表示连续2个周期满足检测规则的条件,触发指标告警。

      告警级别

      指标告警的级别,包括:

      • :表示紧急告警。
      • :表示重要告警。
      • :表示次要告警。
      • :表示提示告警。

  6. 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表6

    表6 “高级设置”填写说明

    参数名称

    参数说明

    检查频率

    根据设置的频率对指标数据查询和分析结果进行检查。

    • 每小时:每小时检查一次查询和分析结果。
    • 每天:在每天的某个固定时间点检查一次查询和分析结果。
    • 每周:在周几的某个固定时间点检查一次查询和分析结果。
    • 固定间隔:按照固定间隔检查查询和分析结果。
      说明:

      检查频率可以选择设置为固定间隔15秒或30秒以实现秒级监控。指标告警的时效性取决于指标上报周期、规则检查频率及通知发送耗时。

      例如,指标上报周期为5秒,规则检查频率设置为固定间隔30秒,通知发送耗时1秒,即可在36秒以内检测到告警并发送通知。

    • Cron:通过Cron表达式指定时间间隔,按照指定的时间间隔检查查询和分析结果。

      Cron表达式的最小精度为分钟,24小时制,例如设置为0/5 * * * *,表示从0分钟开始,每隔5分钟检查一次。

    告警恢复

    连续多少个周期不满足告警条件,恢复告警。默认只监控一个周期,最多可监控30个连续周期指标数据。

    例如,设置连续周期为“2”,则表示连续2个周期不满足告警条件,恢复告警。

    无数据处理

    监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。

    默认只监控一个周期,最多可监控5个连续周期指标数据。

    系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。

    告警标签

    单击添加告警标签。告警标签为告警标识性属性,key:value键值对格式,主要应用于告警降噪等场景。

    详细说明请参见标签和标注

    说明:

    如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。

    告警标注

    单击添加告警标注。告警标注为告警非标识性属性,key:value键值对格式,主要应用于告警通知、消息模板等场景。

    详细说明请参见标签和标注

  7. 设置告警通知策略。具体参数说明请参见表7

    图9 设置告警通知策略
    表7 告警通知策略填写说明

    参数名称

    参数说明

    通知场景

    设置发送告警通知的场景。

    • 告警触发时:满足告警触发条件,则以邮件、短信等方式发送告警通知给指定人员。
    • 告警恢复时:满足告警恢复条件,则以邮件、短信等方式发送告警通知给指定人员。

    告警方式

    • 直接告警:满足告警条件,直接发送告警。选择直接告警方式,需要设置通知频率和是否启用告警行动规则。

      通知频率:发送告警通知的频率,请根据需要从下拉列表中选择。

      启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有列表中的告警行动规则无法满足需要,可在下拉列表中单击“新建告警行动规则”添加。设置告警行动规则的操作详见配置告警行动规则

    • 告警降噪:对告警信息自动匹配告警降噪分组规则后再发送告警,防止产生告警风暴。

      选择告警降噪方式,默认会启用静默规则,请根据需要设置是否启用告警降噪的分组规则。启用后,请从下拉列表选择告警降噪的分组规则。如果现有的分组规则无法满足需要,可在下拉列表中单击“新建分组规则”添加,具体操作请参见创建分组规则

  8. 单击“立即创建”,完成创建。创建完成后,单击“查看告警规则”可查看已创建的告警规则。

    在展开的列表中,只要指标数据满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。只要指标数据满足已设的通知策略,系统就会以邮件、短信等方式发送告警通知给指定人员。

    图10 创建指标告警规则

配置告警行动规则

  1. 在“总览”页面切换为“应用视角”。
  2. 在快速入门区域,单击“配置告警行动规则”,进入“告警行动规则”页面。
  3. 在“告警行动规则”页签下,单击“创建告警行动规则”。
  4. 设置行动规则名称、类型等信息,参数说明如表8所示。

    图11 创建告警行动规则
    表8 告警行动规则参数说明

    参数名称

    说明

    行动规则名称

    行动规则的名称,只能由中文、数字、字母、下划线和中划线组成,且不能以下划线或中划线开头和结尾,最多可输入200个字符。

    企业项目

    所属的企业项目。

    • 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。
    • 如果在全局页面已选择企业项目,则此处灰化不可选。

    描述

    行动规则的描述信息,最多可输入1024个字符。

    行动规则类型

    行动规则的类型。

    • 指标或事件

      当指标或事件满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。

    • 日志

      当日志数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。

    行动方式

    告警行动规则与SMN主题、消息模板关联的类型,请从下拉列表中选择。当前只支持“通知”类型。

    主题

    SMN主题,请从下拉列表中选择。

    若没有合适的主题,请单击主题选择栏下方“创建主题”,在SMN界面创建。

    消息模板

    通知消息的模板,请从下列列表中选择。

    若没有合适的消息模板,请单击消息模板选择栏右侧“创建消息模板”,新建消息模板。

  5. 设置完成后,单击“确定”。