网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务
文档首页/ MapReduce服务 MRS/ 最佳实践/ MRS集群管理/ MRS集群阈值类告警配置说明

MRS集群阈值类告警配置说明

更新时间:2024-12-06 GMT+08:00
分享

应用场景

MRS集群提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态。

MRS支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发告警信息,并在告警页面中出现此告警信息。

如果部分阈值类监控告警经评估后对业务影响可忽略、或告警阈值可进行调整,用户也可以根据需要自定义集群监控指标,或屏蔽对应告警,使告警不再上报。

MRS集群阈值转告警监控指标可分为节点信息指标与集群服务指标,相关指标及其对系统的影响、默认阈值等信息请参考监控指标参考

方案架构

Manager的整体逻辑架构如图1所示。

图1 Manager逻辑架构

Manager由OMS和OMA组成:

  • OMS:操作维护系统的管理节点,OMS一般有两个,互为主备。
  • OMA:操作维护系统中的被管理节点,一般有多个。

FMS为Manager中的告警模块,负责收集每一个OMA上的告警并提供查询。

约束与限制

阈值类告警通常会对集群功能的正常使用、或作业的运行等有一定影响,如需屏蔽或修改告警规则等,请提前评估操作风险。

修改阈值类告警触发规则

  1. 参考访问FusionInsight Manager(MRS 3.x及之后版本)登录MRS集群的FusionInsight Manager界面。
  2. 选择运维 > 告警 > 阈值设置
  3. 在监控分类中选择集群内指定主机或服务的监控指标。例如选择“主机内存使用率”。

    图2 查看阈值告警信息
    其中:
    • 开关:开启表示将触发告警。
    • 分级告警开关:开启时启用分级告警,系统会根据实时监控指标值和分级阈值,动态上报相应级别的告警。仅MRS 3.3.0及之后版本支持配置该参数。
    • 平滑次数:Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。对于同一告警上报较频繁的场景,用户可通过单击编辑按钮适当调高平滑次数,降低告警频率。
    • 检查周期(秒):表示Manager检查监控指标的时间间隔。
    • 规则列表中的条目为触发告警的规则。

  4. 修改告警规则。

    • 添加新规则
      1. 单击“添加规则”,参考表1新增指标的监控行为。
      2. 单击“确定”保存规则。
      3. 在当前已应用规则的所在行,单击“操作”中的“取消应用”。如果没有已应用的规则,则请跳过该步骤。
      4. 在新添加规则的所在行,单击“操作”中的“应用”,此时规则的“生效状态”变成“生效”。
    • 修改已有规则
      1. 单击待修改规则“操作”列的“修改”。
      2. 参考表1修改相关规则参数。
      3. 单击“确定”保存。

    以下样例以修改“主机内存使用率”为例进行说明。

    表1 监控指标规则参数

    参数名

    参数解释

    取值样例

    规则名称

    规则名称

    mrs_test

    告警级别

    告警级别:

    MRS 3.3.0及之后版本集群开启“分级告警开关”后,可以在“阈值设置”参数中配置告警级别。

    • 紧急
    • 重要
    • 次要
    • 提示

    重要

    阈值类型

    选择某指标的最大值或最小值。

    • 最大值:表示指标的实际值大于设置的阈值时系统将产生告警。
    • 最小值:表示指标的实际值小于设置的阈值时系统将产生告警。

    最大值

    日期

    设置规则生效的日期,即哪一天运行规则。开启“分级告警开关”后,仅支持“每天”。

    • 每天
    • 每周
    • 其他

    每天

    添加日期

    仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。

    -

    阈值设置

    起止时间:设置规则运行的具体时间范围。

    00:00 - 23:59

    阈值:设置规则监控指标的阈值。

    85

屏蔽指定告警上报

  1. 参考访问FusionInsight Manager(MRS 3.x及之后版本)登录MRS集群的FusionInsight Manager界面。
  2. 选择运维 > 告警 > 屏蔽设置
  3. 在“屏蔽设置”区域,选择指定的服务或模块。
  4. 单击待操作告警对应“操作”列的“屏蔽”,在弹出的对话框中单击“确定”,修改告警的屏蔽状态为“屏蔽”。

    图3 屏蔽告警
    说明:
    • 可以在屏蔽列表上方筛选指定的告警。
    • 如果需要取消屏蔽,可以单击指定告警后的“取消屏蔽”,在弹出的对话框中单击“确定”,修改告警的屏蔽状态为“显示”。
    • 如果需要一次操作多个告警,可以勾选多个待操作的告警后,单击列表上方的“屏蔽”或“取消屏蔽”。

常见问题

  • 如何查看当前集群未清除告警?
    1. 登录MRS管理控制台。
    2. 单击待操作的集群名称,选择“告警管理”页签。
    3. 单击“高级搜索”,将“告警状态”设置为“未清除”,单击“搜索”。
    4. 界面将显示当前集群未清除的告警。
  • 集群发生告警后如何清除?

    集群发生告警后,可以查看对应告警的帮助文档进行处理。帮助文档查看入口如下:

    • 管理控制台:登录MRS管理控制台,单击待操作的集群名称,选择“告警管理”页签,在告警列表中单击对应操作列的“查看帮助”。然后参考对应告警帮助文档处理步骤进行处理。
    • Manager页面:登录Manager页面,选择“运维 > 告警 > 告警”,单击对应操作列的“查看帮助”。然后参考对应告警帮助文档处理步骤进行处理。

监控指标参考

FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标、表3表示组件可配置阈值的指标。

下表中的“默认阈值”参数值以未开启分级告警开关为例,具体以实际界面显示为准。

表2 节点信息监控指标转告警列表(未开启分级告警开关)

监控指标组名称

监控指标名称

告警ID

告警名称

告警对系统的影响

默认阈值

CPU

主机CPU使用率

12016

CPU使用率超过阈值

业务进程响应缓慢或不可用。

90.0%

磁盘

磁盘使用率

12017

磁盘容量不足

业务进程不可用。

90.0%

磁盘inode使用率

12051

磁盘Inode使用率超过阈值

文件系统无法正常写入。

80.0%

内存

主机内存使用率

12018

内存使用率超过阈值

业务进程响应缓慢或不可用。

90.0%

主机状态

主机文件句柄使用率

12053

主机文件句柄使用率超过阈值

系统应用无法打开文件、网络等IO操作,程序异常。

80.0%

主机PID使用率

12027

主机PID使用率超过阈值

无法分配PID给新的业务进程,业务进程不可用。

90%

网络状态

TCP临时端口使用率

12052

TCP临时端口使用率超过阈值

主机上业务无法发起对外建立连接,业务中断。

80.0%

网络读信息

读包错误率

12047

网络读包错误率超过阈值

通信闪断,业务超时。

0.5%

读包丢包率

12045

网络读包丢包率超过阈值

业务性能下降或者个别业务出现超时问题。

0.5%

读吞吐率

12049

网络读吞吐率超过阈值

业务系统运行不正常或不可用。

80%

网络写信息

写包错误率

12048

网络写包错误率超过阈值

通信闪断,业务超时。

0.5%

写包丢包率

12046

网络写包丢包率超过阈值

业务性能下降或者个别业务出现超时问题。

0.5%

写吞吐率

12050

网络写吞吐率超过阈值

业务系统运行不正常或不可用。

80%

进程

D状态和Z状态进程总数

12028

主机D状态和Z状态进程数超过阈值

占用系统资源,业务进程响应变慢。

0

omm进程使用率

12061

进程使用率超过阈值

无法切换到omm用户。无法创建新的omm线程。

90

表3 集群监控指标转告警列表(未开启分级告警开关)

服务

监控指标名称

告警ID

告警名称

告警对系统的影响

默认阈值

DBService

数据库连接数使用率

27005

数据库连接数使用率超过阈值

可能导致上层服务无法连接DBService的数据库,影响正常业务。

90%

数据目录磁盘空间使用率

27006

数据目录磁盘空间使用率超过阈值

业务进程不可用。

当数据目录磁盘空间使用率超过90%时,数据库进入只读模式并发送告警“数据库进入只读模式”,业务数据丢失。

80%

Flume

Flume堆内存使用率

24006

Flume Server堆内存使用率超过阈值

堆内存溢出可能导致服务崩溃。

95.0%

Flume直接内存使用率

24007

Flume Server直接内存使用率超过阈值

直接内存溢出可能导致服务崩溃。

80.0%

Flume非堆内存使用率

24008

Flume Server非堆内存使用率超过阈值

非堆内存溢出可能导致服务崩溃。

80.0%

Flume垃圾回收(GC)总时间

24009

Flume Server垃圾回收(GC)时间超过阈值

导致Flume数据传输效率低下。

12000ms

HBase

GC中回收old区所花时长

19007

HBase GC时间超出阈值

老年代GC时间超出阈值,会影响到HBase数据的读写。

5000ms

RegionServer直接内存使用率统计

19009

HBase服务进程直接内存使用率超出阈值

HBase可用的直接内存不足,可能会造成内存溢出导致服务崩溃。

90%

RegionServer堆内存使用率统计

19008

HBase服务进程堆内存使用率超出阈值

HBase可用内存不足,可能会造成内存溢出导致服务崩溃。

90%

HMaster直接内存使用率统计

19009

HBase服务进程直接内存使用率超出阈值

HBase可用的直接内存不足,可能会造成内存溢出导致服务崩溃。

90%

HMaster堆内存使用率统计

19008

HBase服务进程堆内存使用率超出阈值

HBase可用内存不足,可能会造成内存溢出导致服务崩溃。

90%

单个RegionServer的region数目

19011

RegionServer的Region数量超出阈值

RegionServer的Region数超出阈值,会影响HBase的数据读写性能。

2000

处在RIT状态达到阈值时长的region数

19013

region处在RIT状态的时长超过阈值。

表的部分数据丢失或不可用。

1

RegionServer的handler使用

19021

RegionServer活跃handler数超过阈值

RegionServer的handler使用率超出阈值,会影响RegionServer对外提供服务的能力,如果集群的大部分RegionServer的handler使用率超过阈值,可导致HBase无法对外提供服务。

90%

容灾同步失败次数

19006

HBase容灾同步失败

无法同步集群中HBase的数据到备集群,导致主备集群数据不一致。

1

主集群等待同步的日志文件数量

19020

HBase容灾等待同步的wal文件数量超过阈值

RegionServer等待同步的wal文件数量超出阈值,会影响HBase使用的znode超出阈值,影响HBase服务状态。

128

主集群等待同步的HFile文件数量

19019

HBase容灾等待同步的HFile文件数量超过阈值

RegionServer等待同步的HFile文件数量超出阈值,会影响HBase使用的znode超出阈值,影响HBase服务状态。

128

Compaction操作队列大小

19018

HBase合并队列超出阈值

产生该告警表示HBase服务的compaction队列长度已经超过规定的阈值,如果不及时处理,可能会导致集群性能下降,影响数据读写。

100

HDFS

HDFS缺失的块数量

14003

丢失的HDFS块数量超过阈值

HDFS存储数据丢失,HDFS可能会进入安全模式,无法提供写服务。丢失的块数据无法恢复。

0

需要复制副本的块总数

14028

待补齐的块数超过阈值

HDFS存储数据丢失,HDFS可能会进入安全模式,无法提供写服务。丢失的块数据无法恢复。

1000

主NameNode RPC处理平均时间

14021

NameNode RPC处理平均时间超过阈值

NameNode无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求,表现为访问HDFS服务的业务运行缓慢,严重时会导致HDFS服务不可用。

100ms

主NameNode RPC队列平均时间

14022

NameNode RPC队列平均时间超过阈值

NameNode无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求,表现为访问HDFS服务的业务运行缓慢,严重时会导致HDFS服务不可用。

200ms

HDFS磁盘空间使用率

14001

HDFS磁盘空间使用率超过阈值

HDFS集群磁盘容量不足,会影响到HDFS的数据写入。

80%

DataNode磁盘空间使用率

14002

DataNode磁盘空间使用率超过阈值

DataNode容量不足,会影响到HDFS的数据写入。

80%

总副本预留磁盘空间所占比率

14023

总副本预留磁盘空间所占比率超过阈值

HDFS集群磁盘容量不足,会影响到HDFS的数据写入。如果DataNode的剩余空间都已经给副本预留,则写入HDFS数据失败。

90%

故障的DataNode总数

14009

Dead DataNode数量超过阈值

故障状态的DataNode节点无法提供HDFS服务。

3

NameNode非堆内存使用百分比统计

14018

NameNode非堆内存使用率超过阈值

HDFS NameNode非堆内存使用率过高,会影响HDFS的数据读写性能。

90%

NameNode直接内存使用百分比统计

14017

NameNode直接内存使用率超过阈值

NameNode可用直接内存不足,可能会造成内存溢出导致服务崩溃。

90%

NameNode堆内存使用百分比统计

14007

NameNode堆内存使用率超过阈值

HDFS NameNode堆内存使用率过高,会影响HDFS的数据读写性能。

95%

DataNode直接内存使用百分比统计

14016

DataNode直接内存使用率超过阈值

DataNode可用直接内存不足,可能会造成内存溢出导致服务崩溃。

90%

DataNode堆内存使用百分比统计

14008

DataNode堆内存使用率超过阈值

HDFS DataNode堆内存使用率过高,会影响到HDFS的数据读写性能。

95%

DataNode非堆内存使用百分比统计

14019

DataNode非堆内存使用率超过阈值

HDFS DataNode非堆内存使用率过高,会影响HDFS的数据读写性能。

90%

垃圾回收时间统计(GC)(NameNode)

14014

NameNode进程垃圾回收(GC)时间超过阈值

NameNode进程的垃圾回收时间过长,可能影响该NameNode进程正常提供服务。

12000ms

垃圾回收时间统计(GC)(DataNode)

14015

DataNode进程垃圾回收(GC)时间超过阈值

DataNode进程的垃圾回收时间过长,可能影响该DataNode进程正常提供服务。

12000ms

Hive

Hive执行成功的HQL百分比

16002

Hive SQL执行成功率低于阈值

系统执行业务能力过低,无法正常响应客户请求。

90.0%

Background线程使用率

16003

Background线程使用率超过阈值

后台Background线程数过多,导致新提交的任务无法及时运行。

90%

MetaStore的总GC时间

16007

Hive GC时间超出阈值

GC时间超出阈值,会影响到Hive数据的读写。

12000ms

HiveServer的总GC时间

16007

Hive GC时间超出阈值

GC时间超出阈值,会影响到Hive数据的读写。

12000ms

Hive已经使用的HDFS空间占可使用空间的百分比

16001

Hive数据仓库空间使用率超过阈值

系统可能无法正常写入数据,导致部分数据丢失。

85.0%

MetaStore直接内存使用率统计

16006

Hive服务进程直接内存使用超出阈值

Hive直接内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。

95%

MetaStore非堆内存使用率统计

16008

Hive服务进程非堆内存使用超出阈值

Hive非堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。

95%

MetaStore堆内存使用率统计

16005

Hive服务进程堆内存使用超出阈值

Hive堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。

95%

HiveServer直接内存使用率统计

16006

Hive服务进程直接内存使用超出阈值

Hive直接内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。

95%

HiveServer非堆内存使用率统计

16008

Hive服务进程非堆内存使用超出阈值

Hive非堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。

95%

HiveServer堆内存使用率统计

16005

Hive服务进程堆内存使用超出阈值

Hive堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。

95%

连接到HiveServer的session数占最大允许session数的百分比

16000

连接到HiveServer的session数占最大允许数的百分比超过阈值

发生连接数告警时,表示连接到HiveServer的session数过多,将会导致无法建立新的连接。

90.0%

Kafka

未完全同步的Partition百分比

38006

Kafka未完全同步的Partition百分比超过阈值

Kafka服务未完全同步的Partition数过多,会影响服务的可靠性,一旦发生leader切换,可能会导致丢数据。

50%

broker上用户连接数使用率

38011

Broker上用户连接数使用率超过设定阈值

当同一个用户连接数太多时,产生告警的用户将无法与Broker建立新的连接。

80%

Broker磁盘使用率

38001

Kafka磁盘容量不足

磁盘容量不足会导致Kafka写入数据失败。

80.0%

Broker磁盘IO使用率

38009

Broker磁盘IO繁忙

Partition所在的磁盘分区IO过于繁忙,产生告警的Kafka Topic上可能无法写入数据。

80%

Broker每分钟的垃圾回收时间统计(GC)

38005

Broker进程垃圾回收(GC)时间超过阈值

Broker进程的垃圾回收时间过长,可能影响该Broker进程正常提供服务。

12000ms

Kafka堆内存使用率

38002

Kafka堆内存使用率超过阈值

Kafka可用内存不足,可能会造成内存溢出导致服务崩溃。

95%

Kafka直接内存使用率

38004

Kafka直接内存使用率超过阈值

Kafka可用直接内存不足,可能会造成内存溢出导致服务崩溃。

95%

Loader

Loader堆内存使用率

23004

Loader堆内存使用率超过阈值

堆内存溢出可能导致服务崩溃。

95%

Loader直接内存使用率统计

23006

Loader直接内存使用率超过阈值

直接内存溢出可能导致服务崩溃。

80.0%

Loader非堆内存使用率

23005

Loader非堆内存使用率超过阈值

非堆内存溢出可能导致服务崩溃。

80%

Loader的总GC时间

23007

Loader进程垃圾回收(GC)时间超过阈值

导致Loader服务响应缓慢。

12000ms

Mapreduce

垃圾回收时间统计(GC)

18012

JobHistoryServer进程垃圾回收(GC)时间超过阈值

JobHistoryServer进程的垃圾回收时间过长,可能影响该JobHistoryServer进程正常提供服务。

12000ms

JobHistoryServer直接内存使用百分比统计

18015

JobHistoryServer直接内存使用率超过阈值

MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。

90%

JobHistoryServer非堆内存使用百分比统计

18019

JobHistoryServer非堆内存使用率超过阈值

MapReduce JobHistoryServer非堆内存使用率过高,会影响MapReduce任务提交和运行的性能,甚至造成内存溢出导致MapReduce服务不可用。

90%

JobHistoryServer堆内存使用百分比统计

18009

JobHistoryServer堆内存使用率超过阈值

Mapreduce JobHistoryServer堆内存使用率过高,会影响Mapreduce服务日志归档的性能,甚至造成内存溢出导致Mapreduce服务不可用。

95%

Oozie

Oozie堆内存使用率

17004

Oozie堆内存使用率超过阈值

堆内存溢出可能导致服务崩溃。

95.0%

Oozie直接内存使用率

17006

Oozie直接内存使用率超过阈值

直接内存溢出可能导致服务崩溃。

80.0%

Oozie非堆内存使用率

17005

Oozie非堆内存使用率超过阈值

非堆内存溢出可能导致服务崩溃。

80%

Oozie垃圾回收(GC)总时间

17007

Oozie垃圾回收(GC)时间超过阈值

导致Oozie提交任务响应变慢。

12000ms

Spark2x

JDBCServer2x堆内存使用率统计

43010

JDBCServer2x进程堆内存使用超出阈值

JDBCServer2x进程堆内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用。

95%

JDBCServer2x直接内存使用率统计

43012

JDBCServer2x进程直接内存使用超出阈值

JDBCServer2x进程直接内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用。

95%

JDBCServer2x非堆内存使用率统计

43011

JDBCServer2x进程非堆内存使用超出阈值

JDBCServer2x进程非堆内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用。

95%

JobHistory2x直接内存使用率统计

43008

JobHistory2x进程直接内存使用超出阈值

JobHistory2x进程直接内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用。

95%

JobHistory2x非堆内存使用率统计

43007

JobHistory2x进程非堆内存使用超出阈值

JobHistory2x进程非堆内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用。

95%

JobHistory2x堆内存使用率统计

43006

JobHistory2x进程堆内存使用超出阈值

JobHistory2x进程堆内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用。

95%

IndexServer2x直接内存使用率统计

43021

IndexServer2x进程直接内存使用超出阈值

IndexServer2x进程直接内存使用率过高,会影响IndexServer2x进程运行的性能,甚至造成内存溢出导致IndexServer2x进程不可用。

95%

IndexServer2x堆内存使用率统计

43019

IndexServer2x进程堆内存使用超出阈值

IndexServer2x进程堆内存使用率过高,会影响IndexServer2x进程运行的性能,甚至造成内存溢出导致IndexServer2x进程不可用。

95%

IndexServer2x非堆内存使用率统计

43020

IndexServer2x进程非堆内存使用超出阈值

IndexServer2x进程非堆内存使用率过高,会影响IndexServer2x进程运行的性能,甚至造成内存溢出导致IndexServer2x进程不可用。

95%

JDBCServer2x的Full GC次数

43017

JDBCServer2x进程Full GC次数超出阈值

GC次数超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用。

12

JobHistory2x的Full GC次数

43018

JobHistory2x进程Full GC次数超出阈值

GC次数超出阈值,会影响JobHistory2x进程运行的性能,甚至造成JobHistory2x进程不可用。

12

IndexServer2x的Full GC次数

43023

IndexServer2x进程Full GC次数超出阈值

GC次数超出阈值,会影响IndexServer2x进程运行的性能,甚至造成IndexServer2x进程不可用。

12

JDBCServer2x的总GC时间

43013

JDBCServer2x进程GC时间超出阈值

GC时间超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用。

12000ms

JobHistory2x的总GC时间

43009

JobHistory2x进程GC时间超出阈值

GC时间超出阈值,会影响JobHistory2x进程运行的性能,甚至造成JobHistory2x进程不可用。

12000ms

IndexServer2x的总GC时间

43022

IndexServer2x进程GC时间超出阈值

GC时间超出阈值,会影响IndexServer2x进程运行的性能,甚至造成IndexServer2x进程不可用。

12000ms

Storm

Supervisor数

26052

Storm服务可用Supervisor数量小于阈值

集群已经存在的任务无法运行;集群可接收新的Storm任务,但是无法运行。

1

已用Slot比率

26053

Storm Slot使用率超过阈值

用户无法执行新的Storm任务。

80.0%

Nimbus堆内存使用率

26054

Nimbus堆内存使用率超过阈值

Storm Nimbus堆内存使用率过高时可能造成频繁GC,甚至造成内存溢出,进而影响Storm任务提交。

80%

Yarn

NodeManager直接内存使用百分比统计

18014

NodeManager直接内存使用率超过阈值

NodeManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。

90%

NodeManager堆内存使用百分比统计

18018

NodeManager堆内存使用率超过阈值

NodeManager堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至可能会造成内存溢出导致Yarn服务崩溃。

95%

NodeManager非堆内存使用百分比统计

18017

NodeManager非堆内存使用率超过阈值

Yarn NodeManager非堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。

90%

ResourceManager直接内存使用百分比统计

18013

ResourceManager直接内存使用率超过阈值

ResourceManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。

90%

ResourceManager堆内存使用百分比统计

18008

ResourceManager堆内存使用率超过阈值

Yarn ResourceManager堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。

95%

ResourceManager非堆内存使用百分比统计

18016

ResourceManager非堆内存使用率超过阈值

Yarn ResourceManager非堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。

90%

垃圾回收时间统计(GC) (NodeManager)

18011

NodeManager进程垃圾回收(GC)时间超过阈值

NodeManager进程的垃圾回收时间过长,可能影响该NodeManager进程正常提供服务。

12000ms

垃圾回收时间统计(GC)(ResourceManager)

18010

ResourceManager进程垃圾回收(GC)时间超过阈值

ResourceManager进程的垃圾回收时间过长,可能影响该ResourceManager进程正常提供服务。

12000ms

root队列下失败的任务数

18026

Yarn上运行失败的任务数超过阈值

大量应用任务运行失败。

运行失败的任务需要重新提交。

50

root队列下被杀死的任务数

18025

Yarn被终止的任务数超过阈值

大量应用任务被强制终止。

50

挂起的内存量

18024

Yarn任务挂起内存超过阈值

应用任务结束时间变长。

新应用提交后长时间无法运行。

83886080MB

正在挂起的任务

18023

Yarn任务挂起数超过阈值

应用任务结束时间变长。

新应用提交后长时间无法运行。

60

ZooKeeper

ZooKeeper连接数使用率

13001

ZooKeeper可用连接数不足

ZooKeeper可用连接数不足,当连接率超过100%时无法处理外部连接。

80%

ZooKeeper堆内存使用率

13004

ZooKeeper堆内存使用率超过阈值

ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃。

95%

ZooKeeper直接内存使用率

13002

ZooKeeper直接内存使用率超过阈值

ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃。

80%

ZooKeeper每分钟的垃圾回收时间统计(GC)

13003

ZooKeeper进程垃圾回收(GC)时间超过阈值

ZooKeeper进程的垃圾回收时间过长,可能影响该ZooKeeper进程正常提供服务。

12000ms

Ranger

UserSync垃圾回收(GC)时间

45284

UserSync垃圾回收(GC)时间超过阈值

导致UserSync响应缓慢。

12000ms

PolicySync垃圾回收(GC)时间

45292

PolicySync垃圾回收(GC)时间超过阈值

导致PolicySync响应缓慢。

12000ms

RangerAdmin垃圾回收(GC)时间

45280

RangerAdmin垃圾回收(GC)时间超过阈值

导致RangerAdmin响应缓慢。

12000ms

TagSync垃圾回收(GC)时间

45288

TagSync垃圾回收(GC)时间超过阈值

导致TagSync响应缓慢。

12000ms

UserSync非堆内存使用率

45283

UserSync非堆内存使用率超过阈值

非堆内存溢出可能导致服务崩溃。

80.0%

UserSync直接内存使用率

45282

UserSync直接内存使用率超过阈值

直接内存溢出可能导致服务崩溃。

80.0%

UserSync堆内存使用率

45281

UserSync堆内存使用率超过阈值

堆内存溢出可能导致服务崩溃。

95.0%

PolicySync直接内存使用率

45290

PolicySync直接内存使用率超过阈值

直接内存溢出可能导致服务崩溃。

80.0%

PolicySync堆内存使用率

45289

PolicySync堆内存使用率超过阈值

堆内存溢出可能导致服务崩溃。

95.0%

PolicySync非堆内存使用率

45291

PolicySync非堆内存使用率超过阈值

非堆内存溢出可能导致服务崩溃。

80.0%

RangerAdmin非堆内存使用率

45279

RangerAdmin非堆内存使用率超过阈值

非堆内存溢出可能导致服务崩溃。

80.0%

RangerAdmin堆内存使用率

45277

RangerAdmin堆内存使用率超过阈值

堆内存溢出可能导致服务崩溃。

95.0%

RangerAdmin直接内存使用率

45278

RangerAdmin直接内存使用率超过阈值

直接内存溢出可能导致服务崩溃。

80.0%

TagSync直接内存使用率

45286

TagSync直接内存使用率超过阈值

直接内存溢出可能导致服务崩溃。

80.0%

TagSync非堆内存使用率

45287

TagSync非堆内存使用率超过阈值

非堆内存溢出可能导致服务崩溃。

80.0%

TagSync堆内存使用率

45285

TagSync堆内存使用率超过阈值

堆内存溢出可能导致服务崩溃。

95.0%

ClickHouse

Clickhouse服务在ZooKeeper的数量配额使用率

45426

ClickHouse服务在ZooKeeper的数量配额使用率超过阈值

ClickHouse在ZooKeeper的数量配额超过阈值后,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。

90%

Clickhouse服务在ZooKeeper的容量配额使用率

45427

ClickHouse服务在ZooKeeper的容量配额使用率超过阈值

ClickHouse在ZooKeeper的容量配额超过阈值后,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。

90%

IoTDB

合并任务 (空间内合并) 的最大时延

45594

IoTDBServer空间内合并执行时长超过阈值

空间内合并任务超时,会阻塞写数据,影响写操作的性能。

300000ms

合并任务 (Flush) 的最大时延

45593

IoTDBServer Flush执行时长超过阈值

Flush任务超时,会阻塞写数据,影响写操作的性能。

300000ms

合并任务 (跨空间合并) 的最大时延

45595

IoTDBServer跨空间合并执行时长超过阈值

跨空间合并任务超时,会阻塞写数据,影响写操作的性能。

300000ms

RPC (executeStatement) 的最大时延

45592

IoTDBServer RPC执行时长超过阈值

IoTDBServer进程RPC过高,会影响IoTDBServer进程运行的性能。

10000s

IoTDBServer垃圾回收(GC)总时间

45587

IoTDBServer垃圾回收(GC)时间超过阈值

IoTDBServer进程的垃圾回收(GC)时间过长,可能影响该IoTDBServer进程正常提供服务。

12000ms

ConfigNode垃圾回收(GC)总时间

45590

ConfigNode垃圾回收(GC)时间超过阈值

ConfigNode进程的垃圾回收(GC)时间过长,可能影响该ConfigNode进程正常提供服务。

12000ms

IoTDBServer堆内存使用率

45586

IoTDBServer堆内存使用率超过阈值

IoTDBServer进程堆内存使用率过高,会影响IoTDBServer进程运行的性能,甚至造成内存溢出导致IoTDBServer进程不可用。

90%

IoTDBServer直接内存使用率

45588

IoTDBServer直接内存使用率超过阈值

直接内存溢出可能导致服务崩溃。

90%

ConfigNode堆内存使用率

45589

ConfigNode堆内存使用率超过阈值

ConfigNode进程堆内存使用率过高,会影响ConfigNode进程运行的性能,甚至造成内存溢出导致ConfigNode进程不可用。

90%

ConfigNode直接内存使用率

45591

ConfigNode直接内存使用率超过阈值

直接内存溢出可能导致IoTDB实例不可用。

90%

提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容