更新时间:2024-12-06 GMT+08:00
MRS集群告警处理参考
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态和Z状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12091 disaster资源异常
- ALM-12099 发生core dump
- ALM-12100 AD服务器连接异常
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12103 executor资源异常
- ALM-12104 knox资源异常
- ALM-12110 获取ECS临时ak/sk失败
- ALM-12172 指标上报CES失败
- ALM-12180 磁盘卡IO
- ALM-12186 用户CGroup任务数使用率超过阈值
- ALM-12187 磁盘分区扩容失败
- ALM-12188 diskmgt磁盘监控服务不可用
- ALM-12190 Knox连接数超过阈值
- ALM-12191 磁盘IO利用率超过阈值
- ALM-12192 主机负载超过阈值
- ALM-12200 密码即将过期
- ALM-12201 进程CPU使用率超过阈值
- ALM-12202 进程内存使用率超过阈值
- ALM-12203 进程Full GC时间超过阈值
- ALM-12204 磁盘IO读取等待时长超过阈值
- ALM-12205 磁盘IO写入等待时长超过阈值
- ALM-12206 密码已经过期
- ALM-12207 慢盘处理超时
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-14030 HDFS已开启允许写入单副本数据
- ALM-14031 DataNode进程状态异常
- ALM-14032 JournalNode进程状态异常
- ALM-14033 ZKFC进程状态异常
- ALM-14034 Router进程状态异常
- ALM-14035 HttpFS进程状态异常
- ALM-14036 NameNode进入安全模式
- ALM-14037 存在集群外的DataNode
- ALM-14038 Router堆内存使用率超过阈值
- ALM-14039 集群内存在慢DataNode
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值
- ALM-16052 MetaStore创建表时访问元数据库时延超过阈值
- ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-17008 Oozie连接ZooKeeper状态异常
- ALM-17009 Oozie连接DBService状态异常
- ALM-17010 Oozie连接HDFS状态异常
- ALM-17011 Oozie连接Yarn状态异常
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-18027 JobHistoryServer进程状态异常
- ALM-18028 TimeLineServer进程状态异常
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-19021 RegionSever handler 使用率超过阈值
- ALM-19022 HBase热点检测功能不可用
- ALM-19023 HBase Region限流
- ALM-19024 RegionServer RPC响应时间的P99超过阈值
- ALM-19025 HBase存在损坏的StoreFile文件
- ALM-19026 HBase存在损坏的WAL文件
- ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值
- ALM-19031 RegionServer的RPC连接数超过阈值
- ALM-19032 RegionServer的RPC写队列数超过阈值
- ALM-19033 RegionServer的RPC读队列数超过阈值
- ALM-19034 RegionServer WAL写入超时个数超过阈值
- ALM-19035 RegionServer Call队列大小超过阈值
- ALM-19036 HBase关键目录数据存在坏块
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-23003 Loader任务执行失败
- ALM-23004 Loader堆内存使用率超过阈值
- ALM-23005 Loader非堆内存使用率超过阈值
- ALM-23006 Loader直接内存使用率超过阈值
- ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25007 SlapdServer连接数超过阈值
- ALM-25008 SlapdServer CPU使用率超过阈值
- ALM-25500 KrbServer服务不可用
- ALM-25501 KerberosServer请求数高
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29010 Impalad 正在提交的查询总数超过阈值
- ALM-29011 Impalad 正在执行的查询总数超过阈值
- ALM-29012 Impalad 正在等待的查询总数超过阈值
- ALM-29013 Impalad FGCT超过阈值
- ALM-29014 Catalog FGCT超过阈值
- ALM-29015 Catalog进程内存占用率超过阈值
- ALM-29016 Impalad实例亚健康
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-29107 Tserver进程内存使用百分比超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)
- ALM-38009 Kafka Topic过载(适用于MRS 3.1.0及之前版本)
- ALM-38010 存在单副本的Topic
- ALM-38011 Broker上用户连接数使用率超过设定阈值
- ALM-38012 Broker的分区数量超过阈值
- ALM-38013 Produce请求在请求队列的时延超过阈值
- ALM-38014 Produce请求总体时延超过阈值
- ALM-38015 Fetch请求在请求队列的时延超过阈值
- ALM-38016 Fetch请求总体时延超过阈值
- ALM-38017 分区均衡时间超过阈值
- ALM-38018 Kafka消息积压
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-43028 JDBCServer Session过载
- ALM-43029 JDBCServer作业提交超时
- ALM-44000 Presto服务不可用
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45000 HetuEngine服务不可用
- ALM-45001 HetuEngine计算实例故障
- ALM-45003 HetuEngine QAS磁盘容量不足
- ALM-45004 HetuEngine计算实例任务积压
- ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值
- ALM-45006 HetuEngine计算实例内存负载使用率超过阈值
- ALM-45007 HetuEngine计算实例Worker个数小于阈值
- ALM-45008 HetuEngine计算实例查询时延超过阈值
- ALM-45009 HetuEngine计算实例任务失败率超过阈值
- ALM-45175 OBS元数据接口调用平均时间超过阈值
- ALM-45176 OBS元数据接口调用成功率低于阈值
- ALM-45177 OBS数据读操作接口调用成功率低于阈值
- ALM-45178 OBS数据写操作接口调用成功率低于阈值
- ALM-45179 OBS readFully接口调用失败数高于阈值
- ALM-45180 OBS read接口调用失败数高于阈值
- ALM-45181 OBS write接口调用失败数高于阈值
- ALM-45182 OBS操作被流控次数高于阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45289 PolicySync堆内存使用率超过阈值
- ALM-45290 PolicySync直接内存使用率超过阈值
- ALM-45291 PolicySync非堆内存使用率超过阈值
- ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
- ALM-45293 Ranger用户同步异常
- ALM-45294 RangerKMS进程状态异常
- ALM-45325 Presto服务不可用
- ALM-45326 Presto Coordinator线程数超过阈值
- ALM-45327 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-45328 Presto Worker进程垃圾收集时间超出阈值
- ALM-45329 Presto Coordinator资源组排队任务超过阈值
- ALM-45330 Presto Worker线程数超过阈值
- ALM-45331 Presto Worker1线程数超过阈值
- ALM-45332 Presto Worker2线程数超过阈值
- ALM-45333 Presto Worker3线程数超过阈值
- ALM-45334 Presto Worker4线程数超过阈值
- ALM-45335 Presto Worker1进程垃圾收集时间超出阈值
- ALM-45336 Presto Worker2进程垃圾收集时间超出阈值
- ALM-45337 Presto Worker3进程垃圾收集时间超出阈值
- ALM-45338 Presto Worker4进程垃圾收集时间超出阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45428 ClickHouse磁盘IO异常
- ALM-45429 ClickHouse扩容节点上同步表元数据失败
- ALM-45430 ClickHouse扩容节点上同步权限元数据失败
- ALM-45431 ClickHouse 实例不满足拓扑分配
- ALM-45432 ClickHouse用户同步进程故障
- ALM-45433 ClickHouse AZ拓扑检查异常
- ALM-45434 ClickHouse组件数据表中存在单副本
- ALM-45435 ClickHouse表元数据不一致
- ALM-45436 ClickHouse表数据倾斜
- ALM-45437 ClickHouse表part数量过多
- ALM-45438 ClickHouse磁盘使用率超过80%
- ALM-45439 ClickHouse节点进入只读模式
- ALM-45440 ClickHouse副本间不一致
- ALM-45441 ZooKeeper连接断开
- ALM-45442 SQL并发数过高
- ALM-45443 集群存在慢SQL查询
- ALM-45444 ClickHouse进程异常
- ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败
- ALM-45446 ClickHouse的mutation任务长时间未执行完成
- ALM-45447 ClickHouse表只读
- ALM-45448 ClickHouse使用Znode数量增长速率过快
- ALM-45449 ClickHouse使用zxid即将翻转
- ALM-45450 ClickHouse获取临时委托凭据失败
- ALM-45451 ClickHouse访问OBS失败
- ALM-45452 ClickHouse本地磁盘剩余空间低于冷热分离策略配置阈值
- ALM-45585 IoTDB服务不可用
- ALM-45586 IoTDBServer堆内存使用率超过阈值
- ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
- ALM-45588 IoTDBServer直接内存使用率超过阈值
- ALM-45589 ConfigNode堆内存使用率超过阈值
- ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
- ALM-45591 ConfigNode直接内存使用率超过阈值
- ALM-45592 IoTDBServer RPC执行时长超过阈值
- ALM-45593 IoTDBServer Flush执行时长超过阈值
- ALM-45594 IoTDBServer空间内合并执行时长超过阈值
- ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
- ALM-45596 Procedure执行失败
- ALM-45615 CDL服务不可用
- ALM-45616 CDL任务执行异常
- ALM-45617 CDL复制槽Slot积压数据量超过阈值
- ALM-45635 FlinkServer作业失败
- ALM-45636 Flink作业连续checkpoint失败
- ALM-45636 Flink作业连续checkpoint失败次数超阈值
- ALM-45637 FlinkServer作业task持续背压
- ALM-45638 FlinkServer作业失败重启次数超阈值
- ALM-45638 Flink作业失败重启次数超阈值
- ALM-45639 Flink作业checkpoint完成时间超过阈值
- ALM-45640 FlinkServer主备节点间心跳中断
- ALM-45641 FlinkServer主备节点同步数据异常
- ALM-45642 RocksDB持续触发写限流
- ALM-45643 RocksDB的MemTable大小持续超过阈值
- ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
- ALM-45645 RocksDB的Pending Flush持续超过阈值
- ALM-45646 RocksDB的Pending Compaction持续超过阈值
- ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
- ALM-45648 RocksDB持续发生Write-Stopped
- ALM-45649 RocksDB的Get P95耗时持续超过阈值
- ALM-45650 RocksDB的Write P95耗时持续超过阈值
- ALM-45652 Flink服务不可用
- ALM-45653 Flink HA证书文件失效
- ALM-45654 Flink HA证书文件即将过期
- ALM-45655 Flink HA证书文件已过期
- ALM-45736 Guardian服务不可用
- ALM-45737 TokenServer堆内存使用率超过阈值
- ALM-45738 TokenServer直接内存使用率超过阈值
- ALM-45739 TokenServer非堆内存使用率超过阈值
- ALM-45740 TokenServer垃圾回收(GC)时间超过阈值
- ALM-45741 请求ECS securitykey接口失败
- ALM-45742 请求ECS metadata接口失败
- ALM-45743 请求IAM接口失败
- ALM-45744 Guardian TokenServer RPC处理平均时间超过阈值
- ALM-45745 Guardian TokenServer RPC队列平均时间超过阈值
- ALM-47001 MemArtsCC服务不可用
- ALM-47002 MemArtsCC磁盘故障
- ALM-47003 MemArtsCC Worker进程内存使用超过阈值
- ALM-47004 MemArtsCC Worker的read请求平均时延超过阈值
- ALM-50201 Doris服务不可用
- ALM-50202 FE CPU使用率超过阈值
- ALM-50203 FE内存使用率超过阈值
- ALM-50205 BE CPU使用率超过阈值
- ALM-50206 BE内存使用率超过阈值
- ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
- ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
- ALM-50209 生成元数据镜像文件失败的次数超过阈值
- ALM-50210 所有BE节点中最大的compaction score值超过阈值
- ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
- ALM-50212 FE进程的老年代GC耗时累计值超过阈值
- ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
- ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
- ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
- ALM-50216 FE节点使用的内存比率超过阈值
- ALM-50217 FE节点堆内存的使用率超过阈值
- ALM-50219 当前查询执行线程池等待队列的长度超过阈值
- ALM-50220 TCP包接收错误的次数的比率超过阈值
- ALM-50221 BE数据盘的使用率超过阈值
- ALM-50222 BE中指定数据目录的磁盘状态异常
- ALM-50223 BE所需最大内存大于机器剩余可用内存
- ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
- ALM-50225 FE实例故障
- ALM-50226 BE实例故障
- ALM-50227 Doris租户查询并发数超过阈值
- ALM-50228 Doris租户内存使用率超过阈值
- ALM-50229 Doris FE连接OBS不可用
- ALM-50230 Doris BE连接OBS不可用
- ALM-50231 Doris中存在异常Tablet
- ALM-50232 Doris中存在较大的Tablet
- ALM-50401 JobServer中等待执行的任务数超过阈值
- ALM-50402 JobGateway服务不可用
- ALM-50406 JobServer提交作业接口失败率超过阈值
- ALM-50407 JobServer查询作业接口失败率超过阈值
- ALM-50408 JobServer终止作业接口失败率超过阈值
- ALM-12001 审计日志转储失败(2.x及以前版本)
- ALM-12002 HA资源异常(2.x及以前版本)
- ALM-12004 OLdap资源异常(2.x及以前版本)
- ALM-12005 OKerberos资源异常(2.x及以前版本)
- ALM-12006 节点故障(2.x及以前版本)
- ALM-12007 进程故障(2.x及以前版本)
- ALM-12010 Manager主备节点间心跳中断(2.x及以前版本)
- ALM-12011 Manager主备节点同步数据异常(2.x及以前版本)
- ALM-12012 NTP服务异常(2.x及以前版本)
- ALM-12014 设备分区丢失(2.x及以前版本)
- ALM-12015 设备分区文件系统只读(2.x及以前版本)
- ALM-12016 CPU使用率超过阈值(2.x及以前版本)
- ALM-12017 磁盘容量不足(2.x及以前版本)
- ALM-12018 内存使用率超过阈值(2.x及以前版本)
- ALM-12027 主机PID使用率超过阈值(2.x及以前版本)
- ALM-12028 主机D状态进程数超过阈值(2.x及以前版本)
- ALM-12031 omm用户或密码即将过期(2.x及以前版本)
- ALM-12032 ommdba用户或密码即将过期(2.x及以前版本)
- ALM-12033 慢盘故障(2.x及以前版本)
- ALM-12034 周期备份任务失败(2.x及以前版本)
- ALM-12035 恢复失败后数据状态未知(2.x及以前版本)
- ALM-12037 NTP服务器异常(2.x及以前版本)
- ALM-12038 监控指标转储失败(2.x及以前版本)
- ALM-12039 GaussDB主备数据不同步(2.x及以前版本)
- ALM-12040 系统熵值不足(2.x及以前版本)
- ALM-12041关键文件权限异常(2.x及以前版本)
- ALM-12042 关键文件配置异常(2.x及以前版本)
- ALM-12043 DNS解析时长超过阈值(2.x及以前版本)
- ALM-12045 网络读包丢包率超过阈值(2.x及以前版本)
- ALM-12046 网络写包丢包率超过阈值(2.x及以前版本)
- ALM-12047 网络读包错误率超过阈值(2.x及以前版本)
- ALM-12048 网络写包错误率超过阈值(2.x及以前版本)
- ALM-12049 网络读吞吐率超过阈值(2.x及以前版本)
- ALM-12050 网络写吞吐率超过阈值(2.x及以前版本)
- ALM-12051 磁盘Inode使用率超过阈值(2.x及以前版本)
- ALM-12052 TCP临时端口使用率超过阈值(2.x及以前版本)
- ALM-12053 文件句柄使用率超过阈值(2.x及以前版本)
- ALM-12054 证书文件失效(2.x及以前版本)
- ALM-12055 证书文件即将过期(2.x及以前版本)
- ALM-12180 磁盘卡IO(2.x及以前版本)
- ALM-12357 审计日志导出到OBS失败(2.x及以前版本)
- ALM-13000 ZooKeeper服务不可用(2.x及以前版本)
- ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本)
- ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本)
- ALM-14000 HDFS服务不可用(2.x及以前版本)
- ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14006 HDFS文件数超过阈值(2.x及以前版本)
- ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)
- ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)
- ALM-14009 故障DataNode数量超过阈值(2.x及以前版本)
- ALM-14010 NameService服务异常(2.x及以前版本)
- ALM-14011 HDFS DataNode数据目录配置不合理(2.x及以前版本)
- ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本)
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值(2.x及以前版本)
- ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本)
- ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本)
- ALM-16004 Hive服务不可用(2.x及以前版本)
- ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本)
- ALM-18000 Yarn服务不可用(2.x及以前版本)
- ALM-18002 NodeManager心跳丢失(2.x及以前版本)
- ALM-18003 NodeManager不健康(2.x及以前版本)
- ALM-18004 NodeManager磁盘可用率低于阈值(2.x及以前版本)
- ALM-18006 执行MapReduce任务超时(2.x及以前版本)
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值(2.x及以前版本)
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本)
- ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
- ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本)
- ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本)
- ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
- ALM-19000 HBase服务不可用(2.x及以前版本)
- ALM-19006 HBase容灾同步失败(2.x及以前版本)
- ALM-19007 HBase合并队列超出阈值(2.x及以前版本)
- ALM-20002 Hue服务不可用(2.x及以前版本)
- ALM-23001 Loader服务不可用(2.x及以前版本)
- ALM-24000 Flume服务不可用(2.x及以前版本)
- ALM-24001 Flume Agent异常(2.x及以前版本)
- ALM-24003 Flume Client连接中断(2.x及以前版本)
- ALM-24004 Flume读取数据异常(2.x及以前版本)
- ALM-24005 Flume传输数据异常(2.x及以前版本)
- ALM-25000 LdapServer服务不可用(2.x及以前版本)
- ALM-25004 LdapServer数据同步异常(2.x及以前版本)
- ALM-25500 KrbServer服务不可用(2.x及以前版本)
- ALM-26051 Storm服务不可用(2.x及以前版本)
- ALM-26052 Storm服务可用Supervisor数量小于阈值(2.x及以前版本)
- ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本)
- ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本)
- ALM-27001 DBService服务不可用(2.x及以前版本)
- ALM-27003 DBService主备节点间心跳中断(2.x及以前版本)
- ALM-27004 DBService主备数据不同步(2.x及以前版本)
- ALM-28001 Spark服务不可用(2.x及以前版本)
- ALM-38000 Kafka服务不可用(2.x及以前版本)
- ALM-38001 Kafka磁盘容量不足(2.x及以前版本)
- ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本)
- ALM-43001 Spark服务不可用(2.x及以前版本)
- ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本)
- ALM-43010 JDBCServer进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43011 JDBCServer进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43012 JDBCServer进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本)
- ALM-44004 Presto Coordinator资源组排队任务超过阈值(2.x及以前版本)
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-45325 Presto服务不可用(2.x及以前版本)
父主题: MRS集群运维