告警管理
当物联网平台监控到满足用户通过规则设置的告警触发条件时或设备消息上行的速度超过平台预设的阈值,平台就会上报告警。用户需要密切关注告警并及时进行处理,确保设备的正常运行。
- 规则类告警:如果用户在控制台上设置设备联动类的规则引擎时,定义了响应动作为上报告警,且定义了告警属性、告警级别等,则当满足触发条件时,平台就会上报告警。例如:智能水表设备3天未上报数据,可能存在水表设备发生故障导致,平台会产生对应的告警,维护人员可通过告警信息找到对应告警的水表设备,进行快速定位维修。
- 系统告警:用户的某些资源达到用户配额的上限,如当设备数达到用户的配额上限,IoTDA平台就会上报系统告警至AOM,这类告警无需用户配置,平台自动触发,但需要配置通知规则。具体系统告警见表1:
表1 系统告警 告警名称
告警解释
单设备MQTT消息流控
单个MQTT设备连接每秒上行数据的流量大小超过设定的阈值(默认值为3K/秒)时,会进入设备连接流控状态,平台会上报告警。
设备上行消息超租户流控阈值
用户的设备上行消息/建链(根据告警的资源的API名称区别,PUBLISH为消息上行,CONNECT为建链,BANDWIDTH为带宽)的速率之和超过用户的阈值。上行消息基础版默认为500/秒,建链基础版默认为100/秒,标准版和企业版请参考产品规格说明,超出部分将会被流控,同时触发告警。
用户设备数达到阈值
用户注册设备数达到阈值,当用户注册设备数达到实例阈值(基础版50000,标准版/企业版请查看产品规格说明,一般为在线设备数的20倍)的80%和100%时会触发告警。
用户在线设备数达到阈值
用户在线设备数达到阈值,当用户同时在线设备数达到阈值(标准版/企业版请查看产品规格说明,与购买单元数量相关)的80%和100%时会触发告警,超过阈值后会拒绝设备接入,告警一小时触发一次。
网关下子设备数达到阈值
用户网关下子设备数达到阈值,当用户单个网关下子设备数达到阈值的80%和100%时会触发告警。
联动规则触发并发限制阈值
联动规则触发并发限制阈值,联动规则每秒触发的规则数超过用户阈值(基础版/标准版为10/秒,企业版为100/秒),超出部分将会被流控,同时触发告警,该告警一天仅会触发一次。
租户调用接口达到流控阈值
租户调用接口达到流控阈值,租户调用接口TPS超过阈值(具体API无特殊说明的默认限制50/s。单个账号调用API的每秒最大次数:基础版/标准版为100/s),超出部分将会被流控,同时触发告警,该告警一天仅会触发一次。
数据转发目标被列入黑名单
数据转发失败次数达到一定数量(默认10次),当前转发目标被拉入黑名单后触发告警。
- 自定义指标告警:用户可以登录应用运维管理控制台配置自定义指标阈值告警,配置步骤参考AOM1.0配置步骤。升级AOM2.0的用户可以登录应用运维管理控制台配置自定义指标告警,。当前支持的指标如下:
表2 自定义告警指标 统计指标
指标名称
设备总数
iotda_device_status_totalCount
在线设备数
iotda_device_status_onlineCount
离线设备数
iotda_device_status_offlineCount
异常设备数
iotda_device_status_abnormalCount
未激活设备数
iotda_device_status_inactiveCount
激活设备数
iotda_device_status_activeCount
累计在线设备数
iotda_device_status_dailyOnlineCount
NB数据上报总数
iotda_south_dataReport_totalCount
NB数据上报失败次数
iotda_south_dataReport_failedCount
MQTT事件上报总数
iotda_south_eventUp_totalCount
MQTT事件上报成功次数
iotda_south_eventUp_successCount
MQTT事件上报失败次数
iotda_south_eventUp_failedCount
MQTT属性上报总数
iotda_south_propertiesReport_totalCount
MQTT属性上报成功次数
iotda_south_propertiesReport_successCount
MQTT属性上报失败次数
iotda_south_propertiesReport_failedCount
MQTT消息上报总数
iotda_south_messageUp_totalCount
MQTT消息上报成功次数
iotda_south_messageUp_successCount
MQTT消息上报失败次数
iotda_south_messageUp_failedCount
AMQP流转次数
iotda_amqp_forwarding_totalCount
AMQP流转成功次数
iotda_amqp_forwarding_successCount
AMQP流转失败次数
iotda_amqp_forwarding_failedCount
FunctionGraph流转次数
iotda_functionGraph_forwarding_totalCount
FunctionGraph流转成功次数
iotda_functionGraph_forwarding_successCount
FunctionGraph流转失败次数
iotda_functionGraph_forwarding_failedCount
MRS Kafka流转次数
iotda_mrsKafka_forwarding_totalCount
MRS Kafka流转成功次数
iotda_mrsKafka_forwarding_successCount
MRS Kafka流转失败次数
iotda_mrsKafka_forwarding_failedCount
Mqtt流转次数
iotda_mqtt_forwarding_totalCount
Mqtt流转成功次数
iotda_mqtt_forwarding_successCount
Mqtt流转失败次数
iotda_mqtt_forwarding_failedCount
MySql流转次数
iotda_mysql_forwarding_totalCount
MySql流转成功次数
iotda_mysql_forwarding_successCount
MySql流转失败次数
iotda_mysql_forwarding_failedCount
InfluxDB流转次数
iotda_influxDB_forwarding_totalCount
InfluxDB流转成功次数
iotda_influxDB_forwarding_successCount
InfluxDB流转失败次数
iotda_influxDB_forwarding_failedCount
HTTP推送流转次数
iotda_http_forwarding_totalCount
HTTP推送流转成功次数
iotda_http_forwarding_successCount
HTTP推送流转失败次数
iotda_http_forwarding_failedCount
OBS流转次数
iotda_obs_forwarding_totalCount
OBS流转成功次数
iotda_obs_forwarding_successCount
OBS流转失败次数
iotda_obs_forwarding_failedCount
DMS Kafka流转次数
iotda_dmsKafka_forwarding_totalCount
DMS Kafka流转成功次数
iotda_dmsKafka_forwarding_successCount
DMS Kafka流转失败次数
iotda_dmsKafka_forwarding_failedCount
DIS流转次数
iotda_dis_forwarding_totalCount
DIS流转成功次数
iotda_dis_forwarding_successCount
DIS流转失败次数
iotda_dis_forwarding_failedCount
ROMA流转次数
iotda_roma_forwarding_totalCount
ROMA流转成功次数
iotda_roma_forwarding_successCount
ROMA流转失败次数
iotda_roma_forwarding_failedCount
LTS流转次数
iotda_lts_forwarding_totalCount
LTS流转成功次数
iotda_lts_forwarding_successCount
LTS流转失败次数
iotda_lts_forwarding_failedCount
AOM1.0配置步骤
- 进入登录应用运维管理控制台,在左侧导航栏中选择“告警 > 告警行动规则”,单击“创建告警行动规则”按钮,填写对应的参数后,完成告警行动规则的创建。
图1 创建告警行动规则
- 在左侧导航栏中选择“告警 > 告警规则”,单击右上角的“添加告警”,进入“创建告警规则”页面。
- 设置阈值规则
- 设置告警基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
图2 设置告警基本信息
- 设置告警规则的详细信息。
- 设置“规则类型”为“阈值规则”。
- 设置“监控对象”为“命令行输入”,并输入相应的命令。
图3 设置监控对象
命令行输入使用Prometheus格式命令,如需查看Prometheus格式命令行的详细说明,请将光标移至搜索框后的处,单击“了解更多”。
例如查询实例A下的“DMS Kafka流转失败次数”,可输入如下命令:sum(label_replace(sum_over_time(iotda_dmsKafka_forwarding_failedCount{instance="实例A的InstanceId"}[59999ms]),"__name__","iotda_dmsKafka_forwarding_failedCount","",""))by(__name__,instance)
其中iotda_dmsKafka_forwarding_failedCount为对应的指标名称,可以从表2中获取。
- 设置“告警条件”为“自定义创建”,在条件中可配置统计周期、连续周期、阈值条件等触发条件参数,具体参数说明如表3。
图4 设置告警条件
以上图为例,即为在3个统计周期内,总数均大于10,则产生一个次要告警。
表3 告警条件参数说明 参数类别
参数名称
参数说明
触发条件
统计周期
指标数据按照所设置的统计周期进行聚合。默认只统计一个周期,最多可统计5个周期指标数据。
连续周期
连续多少个周期满足阈值条件后,发送阈值告警。
统计方式
指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。
阈值条件
阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。
告警级别
阈值告警的级别,包括:紧急、重要、次要、提示。
高级设置
告警恢复
监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。
无数据处理
监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。
默认只监控一个周期,最多可监控5个周期指标数据。
系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。
- 设置告警通知
- 设置告警基本信息:在“规则名称”文本框中输入阈值规则名称,并根据需要填写规则的描述信息。
AOM2.0配置步骤
- 进入登录应用运维管理控制台,在左侧导航栏中选择“告警管理 > 告警行动规则”,单击“创建告警行动规则”,填写对应的参数后,完成告警行动规则的创建。
图6 创建告警行动规则
- 在左侧导航栏中选择“告警管理 > 告警规则”,单击左上角的“创建”,进入创建告警规则页面创建告警规则。
- 告警规则设置,设置告警基本信息:在“规则名称”文本框中输入规则名称,下拉菜单选择企业项目,并根据需要填写规则的描述信息。
图7 创建告警规则
- 设置告警规则的详细信息。
- “规则类型”选择“指标告警规则”。
- “配置方式”选择“全量指标”。
- “Prometheus 实例”下拉菜单选择普罗实例名称。
- “告警规则详情”选择“多指标”。
- “指标”输入栏中输入“iotda”字样,可关联出指标名称。从表2中获取指标名称对应的具体业务含义。
- “条件”下拉菜单中依次填入指标的维度名称、过滤条件与维度值。
- “检测规则”中填入指标告警阈值。
- “触发条件”中填入触发告警的连续周期条件。
- “告警级别”下拉菜单选择告警级别。
图8 设置告警规则 - 设置告警通知。开启告警行动规则,并在下拉菜单中选择行动规则名称。若没有行动规则,可单击“行动规则”右侧的查看,跳转到“告警行动规则”创建页面创建规则。
图9 设置告警规则