mrs
- 用户指南
- IAM权限管理
- 入门
- 配置集群
- 管理现有集群
- 查看和监控集群
- 扩容集群
- 缩容集群
- 退订包周期集群指定节点
- 配置弹性伸缩规则
- 创建集群时配置弹性伸缩规则
- 升级Master节点规格
- 配置消息通知
- 运维
- 删除集群
- 退订集群
- 删除失败任务
- 作业管理
- 管理数据文件
- 组件管理
- 告警管理
- 补丁管理
- MRS补丁说明
- MRS 1.5.1.4补丁说明
- MRS 1.7.1.3补丁说明
- MRS 1.7.1.5补丁说明
- MRS 1.7.1.6补丁说明
- MRS 1.8.7.1补丁说明
- MRS 1.8.10.1补丁说明
- MRS 1.8.10.6补丁说明
- MRS 1.9.0.5补丁说明
- MRS 1.9.0.6补丁说明
- MRS 1.9.0.7补丁说明
- MRS 1.9.3.1补丁说明
- MRS 1.9.3.3补丁说明
- MRS 2.0.1.1补丁说明
- MRS 2.0.1.2补丁说明
- MRS 2.0.1.3补丁说明
- MRS 2.0.6.1补丁说明
- MRS 2.1.0.1补丁说明
- MRS 2.1.0.2补丁说明
- MRS 2.1.0.3补丁说明
- MRS 2.1.0.5补丁说明
- MRS 2.1.0.6补丁说明
- MRS 2.1.0.7补丁说明
- MRS 2.1.0.8补丁说明
- MRS 2.1.0.9补丁说明
- MRS 2.1.0.10补丁说明
- MRS 2.1.0.11补丁说明
- 健康检查管理
- 租户管理
- 备份与恢复
- MRS多用户权限管理
- 管理历史集群
- 查看操作日志
- 管理数据连接
- 连接集群
- MRS Manager操作指导
- 使用前须知
- MRS Manager简介
- 查看集群运行任务
- 监控管理
- 告警管理
- 告警参考(适用于MRS 2.x及之前版本)
- ALM-12001 审计日志转储失败
- ALM-12002 HA资源异常
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12031 omm用户或密码即将过期
- ALM-12032 ommdba用户或密码即将过期
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 GaussDB主备数据不同步
- ALM-12040 系统熵值不足
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper内存使用量超过阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14004 损坏的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 HDFS NameNode内存使用率超过阈值
- ALM-14008 HDFS DataNode内存使用率超过阈值
- ALM-14009 故障DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 HDFS DataNode数据目录配置不合理
- ALM-14012 HDFS Journalnode数据不同步
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16004 Hive服务不可用
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18004 NodeManager磁盘可用率低于阈值
- ALM-18006 执行MapReduce任务超时
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25500 KrbServer服务不可用
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-28001 Spark服务不可用
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Storm Nimbus堆内存使用率超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-12041关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-23001 Loader服务不可用
- ALM-12357 审计日志导出到OBS失败
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12043 DNS解析时长超过阈值
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值
- ALM-20002 Hue服务不可用
- ALM-43001 Spark服务不可用
- ALM-43006 JobHistory进程堆内存使用超出阈值
- ALM-43007 JobHistory进程非堆内存使用超出阈值
- ALM-43008 JobHistory进程直接内存使用超出阈值
- ALM-43009 JobHistory GC 时间超出阈值
- ALM-43010 JDBCServer进程堆内存使用超出阈值
- ALM-43011 JDBCServer进程非堆内存使用超出阈值
- ALM-43012 JDBCServer进程直接内存使用超出阈值
- ALM-43013 JDBCServer GC 时间超出阈值
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-18010 Yarn任务挂起数超过阈值
- ALM-18011 Yarn任务挂起内存超过阈值
- ALM-18012 上个周期被终止的Yarn任务数超过阈值
- ALM-18013 上个周期运行失败的Yarn任务数超过阈值
- ALM-16005 上个周期Hive SQL执行失败超过阈值
- 对象管理
- 日志管理
- 健康检查管理
- 静态服务池管理
- 租户管理
- 备份与恢复
- 安全管理
- 权限管理
- 补丁操作指导
- 修复隔离主机补丁
- 支持滚动重启
- FusionInsight Manager操作指导
- 使用前须知
- 从这里开始
- 主页
- 集群
- 主机
- 运维
- 审计
- 租户资源
- 系统设置
- 集群管理
- 日志管理
- 备份恢复管理
- 安全管理
- 告警参考(适用于MRS 3.x版本)
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与FI使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12101 AZ不健康
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-23003 Loader任务执行失败
- ALM-23004 Loader堆内存使用率超过阈值
- ALM-23005 Loader非堆内存使用率超过阈值
- ALM-23006 Loader直接内存使用率超过阈值
- ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25500 KrbServer服务不可用
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Kafka Topic过载
- ALM-38010 存在单副本的Topic
- ALM-38011 Broker上用户连接数使用率超过设定阈值
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- 数据迁移
- 数据迁移(场景版)
- 数据备份与恢复
- 存算分离操作指导
- 安全性
- 高危操作一览表
- 附录
查看并导出检查报告
链接复制成功!
更新时间:2020/12/16 GMT+08:00
操作场景
为了满足对健康检查结果的进一步具体分析,您可以在MRS中查看以及导出健康检查的结果。

系统健康检查的范围包含Manager、服务级别和主机级别的健康检查:
- Manager关注集群统一管理平台是否提供管理功能。
- 服务级别关注组件是否能够提供正常的服务。
- 主机级别关注主机的一系列指标是否正常。
系统健康检查可以包含三方面检查项:各检查对象的“健康状态”、相关的告警和自定义的监控指标,检查结果并不能等同于界面上显示的“健康状态”。
前提条件
已执行健康检查。
操作步骤
- 在集群详情页,单击页面右上角“管理操作 > 查看集群健康检查报告”。
- 在健康检查的报告面板上单击“导出报告”导出健康检查报告,可查看检查项的完整信息。
父主题: 健康检查管理
