更新时间:2024-11-29 GMT+08:00

ALM-12180 磁盘卡IO

告警解释

  • 对于HDD盘,满足以下任意条件时触发告警:
    • 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到6秒。
    • 系统默认每3秒采集一次数据,在30秒内至少10个采集周期,磁盘队列深度(avgqu-sz)> 0,iops = 0或带宽 = 0,且ioutil > 99%。
    • 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到1000ms。
  • 对于SSD盘,满足以下任意条件时触发告警:
    • 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到3秒。
    • 系统默认每3秒采集一次数据,在30秒内至少10个周期,磁盘队列深度(avgqu-sz)> 0,iops = 0或带宽 = 0,且ioutil > 99%。
    • 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到500ms。

系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足对应条件时,告警自动清除。

  • 在操作系统中执行以下命令采集数据:

    iostat -x -t 1 1

    其中:

    “avgqu-sz”为磁盘队列深度。

    “r/s”“w/s”之和为“iops”

    “rkB/s”“wkB/s”之和为带宽。

    “%util”“ioutil”

  • svctm的计算方法为:

    svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old)

    当检测周期粒度为30s时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 。

    当检测周期粒度为300s时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。

    参数获取如下:

    系统每3秒执行一次cat /proc/diskstats命令采集数据。例如:

    连续两次采集的数据中:

    第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”

    第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”

    则上图中svctm值为:

    (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

12180

重要

物理资源告警

FusionInsight Manager

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

磁盘名

产生告警的磁盘名。

附加信息

磁盘序列号

上报告警的磁盘对应的序列号信息。

对系统的影响

如果IO持续飙高,会对业务操作产生影响导致业务受损,具体可能会产生如下影响:

  • 系统性能下降:卡IO会导致系统I/O性能下降,从而影响系统的响应速度和吞吐量。这可能会导致客户的业务运行变慢(例如:作业提交运行变慢、页面响应迟钝、接口响应超时等),甚至出现崩溃或错误。
  • 系统故障:卡IO可能会导致系统故障,从而导致客户的业务受到影响。如果慢盘上存储的数据包含关键信息,可能会导致系统崩溃或数据丢失。

可能原因

磁盘老化。

处理步骤

更换磁盘。

  1. 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
  2. 查看该告警的详细信息,查看定位信息中对应的“主机名”字段和“磁盘名”字段的值,获取该告警上报的故障磁盘信息。
  3. 确认当前产生告警的主机类型是否为主OMS节点或主备模式实例的主节点。

    • 是,执行4
    • 否,其他类型节点执行6

  4. root用户登录产生告警的节点,执行以下命令查看故障磁盘的挂载点。

    df -h | grep "故障磁盘名称"

    查看故障磁盘挂载点分区是否为集群软件安装目录(安装路径为“${BIGDATA_HOME}”)或数据盘目录(数据盘目录默认为“${BIGDATA_DATA_HOME}”)。
    • 是,执行5
    • 否,执行6

  5. 执行以下操作,触发主备倒换紧急恢复系统故障。

    • 主OMS节点:

      若由于慢盘故障导致系统运行卡顿、页面刷新不及时或接口响应缓慢无法进行运维操作,且当前产生告警的主机为主OMS节点,如果需要紧急恢复系统正常运行,建议使用如下操作手动执行主备倒换尝试恢复业务:

      1. 使用omm用户登录主OMS节点。
      2. 执行以下命令进行主备倒换。
        • IPv4模式:${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --switchover --name=product
        • IPv6模式:${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=::1 --port=20013 --switchover --name=product
      3. 主备倒换成功后,系统恢复正常运行,执行6更换故障磁盘。
    • 主备模式实例的主节点:

      若产生告警的主机为主备模式实例的主节点,且慢盘故障影响实例的正常运行无法进行运维操作,如果需要紧急恢复系统正常运行,建议在Manager页面执行主备倒换尝试恢复业务。

      1. 登录FusionInsight Manager,选择“集群 > 服务 > 待操作服务名称”。
      2. 在服务详情页面单击“更多”,选择“执行xxx倒换”。
      3. 输入当前登录的用户密码确认身份,单击“确定”。
      4. 在弹出界面单击“确定”,执行角色实例主备倒换。
      5. 主备倒换成功后,系统恢复正常运行,执行6更换故障磁盘。

  6. 更换硬盘。
  7. 检查告警是否清除。

    • 是,操作结束。
    • 否,执行8

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“OMS”,单击“确定”。
  3. 单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。