ALM-12180 磁盘卡IO

告警解释

对于HDD盘，满足以下任意条件时触发告警：
- 系统默认每3秒采集一次数据，在30秒内至少7个采集周期的svctm时延达到6秒。
- 系统默认每3秒采集一次数据，在30秒内至少10个采集周期，磁盘队列深度（avgqu-sz）> 0，iops = 0或带宽 = 0，且ioutil > 99%。
- 系统默认每3秒采集一次数据，在300秒内至少50%次检测到的svctm时延达到1000ms。
对于SSD盘，满足以下任意条件时触发告警：
- 系统默认每3秒采集一次数据，在30秒内至少7个采集周期的svctm时延达到3秒。
- 系统默认每3秒采集一次数据，在30秒内至少10个周期，磁盘队列深度（avgqu-sz）> 0，iops = 0或带宽 = 0，且ioutil > 99%。
- 系统默认每3秒采集一次数据，在300秒内至少50%次检测到的svctm时延达到500ms。

系统采集周期为3秒，检测周期为30秒或300秒，当系统连续3个30秒、300秒的周期均不满足对应条件时，告警自动清除。

在操作系统中执行以下命令采集数据：
iostat -x -t 1 1

其中：

“avgqu-sz”为磁盘队列深度。

“r/s”和“w/s”之和为“iops”。

“rkB/s”和“wkB/s”之和为带宽。

“%util”为“ioutil”。
svctm的计算方法为：
svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old)

当检测周期粒度为30s时，如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0，则svctm = 0 。

当检测周期粒度为300s时，在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下，如果tot_ticks_new - tot_ticks_old = 0则svctm = 0，否则svctm值为无穷大。

参数获取如下：

系统每3秒执行一次cat /proc/diskstats命令采集数据。例如：

连续两次采集的数据中：

第一次采集的数据中，第4列的数字是“rd_ios_old”，第8列的数字是“wr_ios_old”，第13列的数字是“tot_ticks_old”。

第二次采集的数据中，第4列的数字是“rd_ios_new”，第8列的数字是“wr_ios_new”，第13列的数字是“tot_ticks_new”。

则上图中svctm值为：

(19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197

告警属性

告警ID	告警级别	告警类型	业务类型	是否可自动清除
12180	重要	物理资源告警	FusionInsight Manager	是

告警参数

类别	参数名称	参数含义
定位信息	来源	产生告警的集群或系统名称。
	服务名	产生告警的服务名称。
	角色名	产生告警的角色名称。
	主机名	产生告警的主机名。
	磁盘名	产生告警的磁盘名。
附加信息	磁盘序列号	上报告警的磁盘对应的序列号信息。

对系统的影响

如果IO持续飙高，会对业务操作产生影响导致业务受损，具体可能会产生如下影响：

系统性能下降：卡IO会导致系统I/O性能下降，从而影响系统的响应速度和吞吐量。这可能会导致客户的业务运行变慢（例如：作业提交运行变慢、页面响应迟钝、接口响应超时等），甚至出现崩溃或错误。
系统故障：卡IO可能会导致系统故障，从而导致客户的业务受到影响。如果慢盘上存储的数据包含关键信息，可能会导致系统崩溃或数据丢失。

可能原因

磁盘老化。

处理步骤

更换磁盘。

在FusionInsight Manager界面，选择“运维 > 告警 > 告警”。
查看该告警的详细信息，查看定位信息中对应的“主机名”字段和“磁盘名”字段的值，获取该告警上报的故障磁盘信息。
确认当前产生告警的主机类型是否为主OMS节点或主备模式实例的主节点。
- 是，执行4。
- 否，其他类型节点执行6。
以root用户登录产生告警的节点，执行以下命令查看故障磁盘的挂载点。

df -h | grep "故障磁盘名称"
查看故障磁盘挂载点分区是否为集群软件安装目录（安装路径为“${BIGDATA_HOME}”）或数据盘目录（数据盘目录默认为“${BIGDATA_DATA_HOME}”）。
- 是，执行5。
- 否，执行6。
执行以下操作，触发主备倒换紧急恢复系统故障。
- 主OMS节点：
  若由于慢盘故障导致系统运行卡顿、页面刷新不及时或接口响应缓慢无法进行运维操作，且当前产生告警的主机为主OMS节点，如果需要紧急恢复系统正常运行，建议使用如下操作手动执行主备倒换尝试恢复业务：
  1. 使用omm用户登录主OMS节点。
  2. 执行以下命令进行主备倒换。
    - IPv4模式：${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --switchover --name=product
    - IPv6模式：${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=::1 --port=20013 --switchover --name=product
  3. 主备倒换成功后，系统恢复正常运行，执行6更换故障磁盘。
- 主备模式实例的主节点：
  若产生告警的主机为主备模式实例的主节点，且慢盘故障影响实例的正常运行无法进行运维操作，如果需要紧急恢复系统正常运行，建议在Manager页面执行主备倒换尝试恢复业务。
  1. 登录FusionInsight Manager，选择“集群 > 服务 > 待操作服务名称”。
  2. 在服务详情页面单击“更多”，选择“执行xxx倒换”。
  3. 输入当前登录的用户密码确认身份，单击“确定”。
  4. 在弹出界面单击“确定”，执行角色实例主备倒换。
  5. 主备倒换成功后，系统恢复正常运行，执行6更换故障磁盘。
更换硬盘。
检查告警是否清除。
- 是，操作结束。
- 否，执行8。

收集故障信息。

在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。
在“服务”中勾选“OMS”，单击“确定”。
单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

不涉及。

父主题： 告警参考

上一篇：ALM-12110 获取ECS临时ak/sk失败

下一篇：ALM-12190 Knox连接数超过阈值

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消