- 用户指南
- IAM权限管理
- 入门
- 配置集群
- 管理现有集群
- 查看和监控集群
- 扩容集群
- 缩容集群
- 配置弹性伸缩规则
- 创建集群时配置弹性伸缩规则
- 升级Master节点规格
- 配置消息通知
- 运维
- 删除集群
- 退订集群
- 删除失败任务
- 组件管理
- 作业管理
- 管理数据文件
- 告警管理
- 告警参考
- ALM-12001 审计日志转储失败
- ALM-12002 HA资源异常
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12031 omm用户或密码即将过期
- ALM-12032 ommdba用户或密码即将过期
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 GaussDB主备数据不同步
- ALM-12040 系统熵值不足
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper内存使用量超过阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14004 损坏的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 HDFS NameNode内存使用率超过阈值
- ALM-14008 HDFS DataNode内存使用率超过阈值
- ALM-14009 故障DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 HDFS DataNode数据目录配置不合理
- ALM-14012 HDFS Journalnode数据不同步
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16004 Hive服务不可用
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18006 执行MapReduce任务超时
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25500 KrbServer服务不可用
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-28001 Spark服务不可用
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Storm Nimbus堆内存使用率超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-12041关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-23001 Loader服务不可用
- ALM-12357 审计日志导出到OBS失败
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12043 DNS解析时长超过阈值
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值
- ALM-20002 Hue服务不可用
- ALM-43001 Spark服务不可用
- ALM-43006 JobHistory进程堆内存使用超出阈值
- ALM-43007 JobHistory进程非堆内存使用超出阈值
- ALM-43008 JobHistory进程直接内存使用超出阈值
- ALM-43009 JobHistory GC 时间超出阈值
- ALM-43010 JDBCServer进程堆内存使用超出阈值
- ALM-43011 JDBCServer进程非堆内存使用超出阈值
- ALM-43012 JDBCServer进程直接内存使用超出阈值
- ALM-43013 JDBCServer GC 时间超出阈值
- 补丁管理
- MRS补丁说明
- 对象管理
- 日志管理
- 健康检查管理
- 租户管理
- 备份与恢复
- 安全管理
- MRS多用户权限管理
- 管理历史集群
- 查看操作日志
- 管理数据连接
- 连接集群
- 数据迁移
- 数据备份与恢复
- MRS集群组件操作指导
- 安全性
- MRS Manager操作指导(旧版)
- MRS Manager简介
- 访问MRS Manager
- 访问支持Kerberos认证的Manager
- 查看集群运行任务
- 监控管理
- 告警管理
- 告警参考
- ALM-12001 审计日志转储失败
- ALM-12002 HA资源异常
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12031 omm用户或密码即将过期
- ALM-12032 ommdba用户或密码即将过期
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 GaussDB主备数据不同步
- ALM-12040 系统熵值不足
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper内存使用量超过阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14004 损坏的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 HDFS NameNode内存使用率超过阈值
- ALM-14008 HDFS DataNode内存使用率超过阈值
- ALM-14009 故障DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 HDFS DataNode数据目录配置不合理
- ALM-14012 HDFS Journalnode数据不同步
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16004 Hive服务不可用
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18006 执行MapReduce任务超时
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25500 KrbServer服务不可用
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-28001 Spark服务不可用
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Storm Nimbus堆内存使用率超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-12041关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-23001 Loader服务不可用
- ALM-12357 审计日志导出到OBS失败
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12043 DNS解析时长超过阈值
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值
- ALM-20002 Hue服务不可用
- ALM-43001 Spark服务不可用
- ALM-43006 JobHistory进程堆内存使用超出阈值
- ALM-43007 JobHistory进程非堆内存使用超出阈值
- ALM-43008 JobHistory进程直接内存使用超出阈值
- ALM-43009 JobHistory GC 时间超出阈值
- ALM-43010 JDBCServer进程堆内存使用超出阈值
- ALM-43011 JDBCServer进程非堆内存使用超出阈值
- ALM-43012 JDBCServer进程直接内存使用超出阈值
- ALM-43013 JDBCServer GC 时间超出阈值
- 对象管理
- 日志管理
- 健康检查管理
- 静态服务池管理
- 租户管理
- 备份与恢复
- 安全管理
- 权限管理
- 补丁操作指导
- 修复隔离主机补丁
- 支持滚动重启
- 附录
Yarn健康检查指标项说明
链接复制成功!
更新时间:
2019/07/03 GMT+08:00
服务健康状态
指标项名称:服务状态
指标项含义:检查Yarn服务状态是否正常。如果当前无法获取NodeManager节点数时,则认为不健康。
恢复指导:如果该指标项异常,建议参见告警进行处理并确认网络无异常。
检查告警
指标项名称: 告警信息
指标项含义:检查服务是否存在未清除的告警。如果存在,则认为不健康。
恢复指导:如果该指标项异常,建议参见告警进行处理。
父主题:
健康检查管理
相关文档
相关产品
