更新时间:2024-11-26 GMT+08:00

告警管理

当物联网平台监控到满足用户通过规则设置的告警触发条件时或设备消息上行的速度超过平台预设的阈值,平台就会上报告警。用户需要密切关注告警并及时进行处理,确保设备的正常运行。

告警分为规则类告警、系统告警和自定义指标告警。
  • 规则类告警:如果用户在控制台上设置设备联动类的规则引擎时,定义了响应动作为上报告警,且定义了告警属性、告警级别等,则当满足触发条件时,平台就会上报告警。例如:智能水表设备3天未上报数据,可能存在水表设备发生故障导致,平台会产生对应的告警,维护人员可通过告警信息找到对应告警的水表设备,进行快速定位维修。
  • 系统告警:用户的某些资源达到用户配额的上限,如当设备数达到用户的配额上限,IoTDA平台就会上报系统告警至AOM,这类告警无需用户配置,平台自动触发,但需要配置通知规则。具体系统告警见表1
    表1 系统告警

    告警名称

    告警解释

    单设备MQTT消息流控

    单个MQTT设备连接每秒上行数据的流量大小超过设定的阈值(默认值为3K/秒)时,会进入设备连接流控状态,平台会上报告警。

    设备上行消息超租户流控阈值

    用户的设备上行消息/建链(根据告警的资源的API名称区别,PUBLISH为消息上行,CONNECT为建链,BANDWIDTH为带宽)的速率之和超过用户的阈值。上行消息基础版默认为500/秒,建链基础版默认为100/秒,标准版和企业版请参考产品规格说明,超出部分将会被流控,同时触发告警。

    用户设备数达到阈值

    用户注册设备数达到阈值,当用户注册设备数达到实例阈值(基础版50000,标准版/企业版请查看产品规格说明,一般为在线设备数的20倍)的80%和100%时会触发告警。

    用户在线设备数达到阈值

    用户在线设备数达到阈值,当用户同时在线设备数达到阈值(标准版/企业版请查看产品规格说明,与购买单元数量相关)的80%和100%时会触发告警,超过阈值后会拒绝设备接入,告警一小时触发一次。

    网关下子设备数达到阈值

    用户网关下子设备数达到阈值,当用户单个网关下子设备数达到阈值的80%和100%时会触发告警。

    联动规则触发并发限制阈值

    联动规则触发并发限制阈值,联动规则每秒触发的规则数超过用户阈值(基础版/标准版为10/秒,企业版为100/秒),超出部分将会被流控,同时触发告警,该告警一天仅会触发一次。

    租户调用接口达到流控阈值

    租户调用接口达到流控阈值,租户调用接口TPS超过阈值(具体API无特殊说明的默认限制50/s。单个账号调用API的每秒最大次数:基础版/标准版为100/s),超出部分将会被流控,同时触发告警,该告警一天仅会触发一次。

    数据转发目标被列入黑名单

    数据转发失败次数达到一定数量(默认10次),当前转发目标被拉入黑名单后触发告警。

  • 自定义指标告警:用户可以登录应用运维管理控制台配置自定义指标阈值告警,配置步骤参考AOM1.0配置步骤。升级AOM2.0的用户可以登录应用运维管理控制台配置自定义指标告警,。当前支持的指标如下:
    表2 自定义告警指标

    统计指标

    指标名称

    设备总数

    iotda_device_status_totalCount

    在线设备数

    iotda_device_status_onlineCount

    离线设备数

    iotda_device_status_offlineCount

    异常设备数

    iotda_device_status_abnormalCount

    未激活设备数

    iotda_device_status_inactiveCount

    激活设备数

    iotda_device_status_activeCount

    累计在线设备数

    iotda_device_status_dailyOnlineCount

    NB数据上报总数

    iotda_south_dataReport_totalCount

    NB数据上报失败次数

    iotda_south_dataReport_failedCount

    MQTT事件上报总数

    iotda_south_eventUp_totalCount

    MQTT事件上报成功次数

    iotda_south_eventUp_successCount

    MQTT事件上报失败次数

    iotda_south_eventUp_failedCount

    MQTT属性上报总数

    iotda_south_propertiesReport_totalCount

    MQTT属性上报成功次数

    iotda_south_propertiesReport_successCount

    MQTT属性上报失败次数

    iotda_south_propertiesReport_failedCount

    MQTT消息上报总数

    iotda_south_messageUp_totalCount

    MQTT消息上报成功次数

    iotda_south_messageUp_successCount

    MQTT消息上报失败次数

    iotda_south_messageUp_failedCount

    AMQP流转次数

    iotda_amqp_forwarding_totalCount

    AMQP流转成功次数

    iotda_amqp_forwarding_successCount

    AMQP流转失败次数

    iotda_amqp_forwarding_failedCount

    FunctionGraph流转次数

    iotda_functionGraph_forwarding_totalCount

    FunctionGraph流转成功次数

    iotda_functionGraph_forwarding_successCount

    FunctionGraph流转失败次数

    iotda_functionGraph_forwarding_failedCount

    MRS Kafka流转次数

    iotda_mrsKafka_forwarding_totalCount

    MRS Kafka流转成功次数

    iotda_mrsKafka_forwarding_successCount

    MRS Kafka流转失败次数

    iotda_mrsKafka_forwarding_failedCount

    Mqtt流转次数

    iotda_mqtt_forwarding_totalCount

    Mqtt流转成功次数

    iotda_mqtt_forwarding_successCount

    Mqtt流转失败次数

    iotda_mqtt_forwarding_failedCount

    MySql流转次数

    iotda_mysql_forwarding_totalCount

    MySql流转成功次数

    iotda_mysql_forwarding_successCount

    MySql流转失败次数

    iotda_mysql_forwarding_failedCount

    InfluxDB流转次数

    iotda_influxDB_forwarding_totalCount

    InfluxDB流转成功次数

    iotda_influxDB_forwarding_successCount

    InfluxDB流转失败次数

    iotda_influxDB_forwarding_failedCount

    HTTP推送流转次数

    iotda_http_forwarding_totalCount

    HTTP推送流转成功次数

    iotda_http_forwarding_successCount

    HTTP推送流转失败次数

    iotda_http_forwarding_failedCount

    OBS流转次数

    iotda_obs_forwarding_totalCount

    OBS流转成功次数

    iotda_obs_forwarding_successCount

    OBS流转失败次数

    iotda_obs_forwarding_failedCount

    DMS Kafka流转次数

    iotda_dmsKafka_forwarding_totalCount

    DMS Kafka流转成功次数

    iotda_dmsKafka_forwarding_successCount

    DMS Kafka流转失败次数

    iotda_dmsKafka_forwarding_failedCount

    DIS流转次数

    iotda_dis_forwarding_totalCount

    DIS流转成功次数

    iotda_dis_forwarding_successCount

    DIS流转失败次数

    iotda_dis_forwarding_failedCount

    ROMA流转次数

    iotda_roma_forwarding_totalCount

    ROMA流转成功次数

    iotda_roma_forwarding_successCount

    ROMA流转失败次数

    iotda_roma_forwarding_failedCount

    LTS流转次数

    iotda_lts_forwarding_totalCount

    LTS流转成功次数

    iotda_lts_forwarding_successCount

    LTS流转失败次数

    iotda_lts_forwarding_failedCount

AOM1.0配置步骤

  1. 进入登录应用运维管理控制台,在左侧导航栏中选择“告警 > 告警行动规则”,单击“创建告警行动规则”按钮,填写对应的参数后,完成告警行动规则的创建。

    图1 创建告警行动规则

  2. 在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”,进入“创建告警规则”页面。
  3. 设置阈值规则

    1. 设置告警基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
      图2 设置告警基本信息
    2. 设置告警规则的详细信息。
      1. 设置“规则类型”为“阈值规则”。
      2. 设置“监控对象”为“命令行输入”,并输入相应的命令。
        图3 设置监控对象

        命令行输入使用Prometheus格式命令,如需查看Prometheus格式命令行的详细说明,请将光标移至搜索框后的处,单击“了解更多”。

        例如查询实例A下的“DMS Kafka流转失败次数”,可输入如下命令:sum(label_replace(sum_over_time(iotda_dmsKafka_forwarding_failedCount{instance="实例A的InstanceId"}[59999ms]),"__name__","iotda_dmsKafka_forwarding_failedCount","",""))by(__name__,instance)

        其中iotda_dmsKafka_forwarding_failedCount为对应的指标名称,可以从表2中获取。

      3. 设置“告警条件”为“自定义创建”,在条件中可配置统计周期、连续周期、阈值条件等触发条件参数,具体参数说明如表3
        图4 设置告警条件

        以上图为例,即为在3个统计周期内,总数均大于10,则产生一个次要告警。

        表3 告警条件参数说明

        参数类别

        参数名称

        参数说明

        触发条件

        统计周期

        指标数据按照所设置的统计周期进行聚合。默认只统计一个周期,最多可统计5个周期指标数据。

        连续周期

        连续多少个周期满足阈值条件后,发送阈值告警。

        统计方式

        指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。

        阈值条件

        阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。

        告警级别

        阈值告警的级别,包括:紧急、重要、次要、提示。

        高级设置

        告警恢复

        监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。

        无数据处理

        监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。

        默认只监控一个周期,最多可监控5个周期指标数据。

        系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。

    3. 设置告警通知
      1. 设置告警方式为“直接告警”。
      2. 行动规则选择1创建的行动规则。
      3. 开启“告警恢复通知”开关。
        图5 设置告警通知

        如果需要使用“告警降噪”功能,可参考告警降噪说明

AOM2.0配置步骤

  1. 进入登录应用运维管理控制台,在左侧导航栏中选择“告警管理 > 告警行动规则”,单击“创建告警行动规则”,填写对应的参数后,完成告警行动规则的创建。

    图6 创建告警行动规则

  2. 在左侧导航栏中选择“告警管理 > 告警规则”,单击左上角的“创建”,进入创建告警规则页面创建告警规则。
  3. 告警规则设置,设置告警基本信息:在“规则名称”文本框中输入规则名称,下拉菜单选择企业项目,并根据需要填写规则的描述信息。

    图7 创建告警规则

  4. 设置告警规则的详细信息。

    1. “规则类型”选择“指标告警规则”。
    2. “配置方式”选择“全量指标”。
    3. “Prometheus 实例”下拉菜单选择普罗实例名称。
    4. “告警规则详情”选择“多指标”。
    5. “指标”输入栏中输入“iotda”字样,可关联出指标名称。从表2中获取指标名称对应的具体业务含义。
    6. “条件”下拉菜单中依次填入指标的维度名称、过滤条件与维度值。
    7. “检测规则”中填入指标告警阈值。
    8. “触发条件”中填入触发告警的连续周期条件。
    9. “告警级别”下拉菜单选择告警级别。
    图8 设置告警规则

  5. 设置告警通知。开启告警行动规则,并在下拉菜单中选择行动规则名称。若没有行动规则,可单击“行动规则”右侧的查看,跳转到“告警行动规则”创建页面创建规则。

    图9 设置告警规则

查看告警信息

用户可以使用应用运维管理服务,查看告警。该服务支持查看最近15天的告警信息。更多详细内容请参考查看告警
  1. 访问设备接入服务,单击“管理控制台”,进入设备接入控制台。选择您的实例,单击实例卡片进入。
  2. 在左侧导航栏选择“监控运维>当前告警”,单击“前往AOM”,跳转至应用运维管理服务,查看设备接入服务的告警信息。
  3. 单击目标告警,查看告警详情。
    图10 查看告警详情
  4. 清除告警。当设备故障解除时,可在告警列表中单击目标告警所在“操作”列中的