文档首页/ MapReduce服务 MRS/ 用户指南(阿布扎比区域)/ FusionInsight Manager操作指导（适用于3.x）/ 告警参考（适用于MRS 3.x版本）/ ALM-12180 磁盘卡IO

更新时间：2023-03-17 GMT+08:00

查看PDF

ALM-12180 磁盘卡IO

告警解释

对于HDD盘，满足以下任意条件时触发告警：
- 系统在30s内，每3秒采集一次数据，连续10周期，svctm时延超过6秒。
- 系统在30s内，每3秒采集一次数据，连续10周期，磁盘队列深度（avgqu-sz）> 0，iops = 0或带宽 = 0，且ioutil > 99%。
对于SSD盘，满足以下任意条件时触发告警：
- 系统在30秒内，每3秒采集一次数据，连续10周期，svctm时延超过3秒。
- 系统在30秒内，每3秒采集一次数据，连续10周期，磁盘队列深度（avgqu-sz）> 0，iops = 0或带宽 = 0，且ioutil > 99%。

当系统连续90s内不满足以上所有条件时，告警自动清除。

在操作系统中执行以下命令采集数据：
iostat -x -t 1 1

其中：

“avgqu-sz”为磁盘队列深度。

“r/s”和“w/s”之和为“iops”。

“rkB/s”和“wkB/s”之和为带宽。

“%util”为“ioutil”。

svctm获取方式如下：
MRS 3.1.0版本：
在操作系统中执行iostat -x -t获取：
MRS 3.1.0之后版本svctm的计算方法为：
svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old)

如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0，则svctm = 0

参数获取如下：

系统每3秒执行一次cat /proc/diskstats命令采集数据。例如：

连续两次采集的数据中：

第一次采集的数据中，第4列的数字是“rd_ios_old”，第8列的数字是“wr_ios_old”，第13列的数字是“tot_ticks_old”。

第二次采集的数据中，第4列的数字是“rd_ios_new”，第8列的数字是“wr_ios_new”，第13列的数字是“tot_ticks_new”。

则上图中svctm值为：

(19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197

告警属性

告警ID	告警级别	是否自动清除
12180	重要	是

告警参数

参数名称	参数含义
来源	产生告警的集群或系统名称。
服务名	产生告警的服务名称。
角色名	产生告警的角色名称。
主机名	产生告警的主机名。
磁盘名	产生告警的磁盘名。

对系统的影响

如果IO持续飙高，会对业务操作产生影响，导致业务受损。

可能原因

磁盘老化。

处理步骤

更换磁盘。

在FusionInsight Manager界面，选择“运维 > 告警 > 告警”。
查看该告警的详细信息，查看定位信息中对应的“主机名”字段和“磁盘名”字段的值，获取该告警上报的故障磁盘信息。
更换硬盘。
检查告警是否清除。
- 是，操作结束。
- 否，执行5。

收集故障信息。

在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。
在“服务”中勾选“OMS”，单击“确定”。
单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

无。

父主题： 告警参考（适用于MRS 3.x版本）

上一篇：ALM-12110 获取ECS临时ak/sk失败

下一篇：ALM-13000 ZooKeeper服务不可用

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消