更新时间:2023-03-17 GMT+08:00

ALM-12051 磁盘Inode使用率超过阈值

告警解释

系统每30秒周期性检测磁盘Inode使用率,并把实际Inode使用率和阈值(系统默认阈值80%)进行比较,当检测到Inode使用率连续多次(默认值为5)超过阈值时产生该告警。

用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 磁盘 > 磁盘inode使用率”修改阈值。

平滑次数为1,磁盘Inode使用率小于或等于阈值时,告警恢复;平滑次数大于1,磁盘Inode使用率小于或等于阈值的90%时,告警恢复。

告警属性

告警ID

告警级别

是否自动清除

12051

重要

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

设备分区

产生告警的磁盘分区。

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

文件系统无法正常写入。

可能原因

磁盘写入的小文件过多。

处理步骤

磁盘写入的小文件过多。

  1. 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的,获取告警所在主机地址和磁盘分区。
  2. root用户登录告警所在主机
  3. 执行命令df -i | grep -iE "分区名称|Filesystem",查看磁盘当前Inode使用率。

    # df -i | grep -iE "xvda2|Filesystem"
    Filesystem            Inodes   IUsed   IFree IUse% Mounted on
    /dev/xvda2           2359296  207420 2151876    9% /

  4. 若Inode使用率超过阈值,手工排查该分区存在的小文件,确认是否能够删除这些文件。

    可使用命令for i in /*; do echo $i; find $i|wc -l; done查看分区下的文件个数,使用时请替换“/*”为需要检查的分区。

    # for i in /srv/*; do echo $i; find $i|wc -l; done
    /srv/BigData
    4284
    /srv/ftp
    1
    /srv/www
    13
    • 是,执行rm -rf 待删除文件或文件夹路径命令,删除文件,执行5

      删除文件为高危操作,在执行操作前请务必确认对应文件是否不再需要。

    • 否,进行磁盘扩容,执行5

  5. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行6

收集故障信息。

  1. 在主集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“OMS”,单击“确定”。
  3. 设置“主机”为告警所在节点和主OMS节点。
  4. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。