更新时间:2024-01-04 GMT+08:00

节点故障检测策略

节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。

前提条件

集群中已安装CCE节点故障检测插件。

开启节点故障检测

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 在左侧选择“节点管理”,检查集群中是否已安装npd插件,或将其升级至最新版本。npd安装成功后,可正常使用故障检测策略功能。
  3. npd运行正常时,单击“故障检测策略”,可查看当前故障检测项。关于NPD检查项列表请参见NPD检查项
  4. 当前节点检查结果异常时,将在节点列表处提示“指标异常”。

  5. 您可单击“指标异常”,按照修复建议提示修复。

自定义检查项配置

  1. 登录CCE控制台,单击集群名称进入集群。
  2. 在左侧选择“节点管理”,单击“故障检测策略”
  3. 在跳转的页面中查看当前检查项配置,单击检查项操作列的“编辑”,自定义检查项配置。

    当前支持以下配置:
    • 启用/停用:自定义某个检查项的开启或关闭。
    • 目标节点配置:检查项默认运行在全部节点,用户可根据特殊场景需要自定义修改故障阈值。例如竞价实例中断回收检查只运行在竞价实例节点。

    • 触发阈值配置:默认阈值匹配常见故障场景,用户可根据特殊场景需要自定义修改故障阈值。例如调整“连接跟踪表耗尽”触发阈值由90%调整至80%。

    • 检查周期:默认检查周期为30秒,可根据用户场景需要自定义修改检查周期。

    • 故障应对策略:故障产生后,可根据用户场景自定义修改故障应对策略,当前故障应对策略如下:
      表1 故障应对策略

      故障应对策略

      效果

      提示异常

      上报Kuberentes事件。

      禁止调度

      上报Kuberentes事件,并为节点添加NoSchedule污点。

      驱逐节点负载

      上报Kuberentes事件,并为节点添加NoExecute污点。该操作会驱逐节点上的负载,可能导致业务不连续,请谨慎选择。

NPD检查项

当前检查项仅1.16.0及以上版本支持。

NPD的检查项主要分为事件类检查项和状态类检查项。

  • 事件类检查项

    对于事件类检查项,当问题发生时,NPD会向APIServer上报一条事件,事件类型分为Normal(正常事件)和Warning(异常事件)

    表2 事件类检查项

    故障检查项

    功能

    说明

    OOMKilling

    监听内核日志,检查OOM事件发生并上报

    典型场景:容器内进程使用的内存超过了Limt,触发OOM并终止该进程

    Warning类事件

    监听对象:/dev/kmsg

    匹配规则:"Killed process \\d+ (.+) total-vm:\\d+kB, anon-rss:\\d+kB, file-rss:\\d+kB.*"

    TaskHung

    监听内核日志,检查taskHung事件发生并上报

    典型场景:磁盘卡IO导致进程卡住

    Warning类事件

    监听对象:/dev/kmsg

    匹配规则:"task \\S+:\\w+ blocked for more than \\w+ seconds\\."

    ReadonlyFilesystem

    监听内核日志,检查系统内核是否有Remount root filesystem read-only错误

    典型场景:用户从ECS侧误操作卸载节点数据盘,且应用程序对该数据盘的对应挂载点仍有持续写操作,触发内核产生IO错误将磁盘重挂载为只读磁盘。

    说明:

    节点容器存储Rootfs为Device Mapper类型时,数据盘卸载会导致thinpool异常,影响NPD运行,NPD将无法检测节点故障。

    Warning类事件

    监听对象:/dev/kmsg

    匹配规则:"Remounting filesystem read-only"

  • 状态类检查项

    对于状态类检查项,当问题发生时,NPD会向APIServer上报一条事件,并同步修改节点状态,可配合Node-problem-controller故障隔离对节点进行隔离。

    下列检查项中若未明确指出检查周期,则默认周期为30秒。

    表3 系统组件检查

    故障检查项

    功能

    说明

    容器网络组件异常

    CNIProblem

    检查CNI组件(容器网络组件)运行状态

    容器运行时组件异常

    CRIProblem

    检查节点CRI组件(容器运行时组件)Docker和Containerd的运行状态

    检查对象:Docker或Containerd

    Kubelet频繁重启

    FrequentKubeletRestart

    通过定期回溯系统日志,检查关键组件Kubelet是否频繁重启

    • 默认阈值:10分钟内重启10次

      即在10分钟内组件重启10次表示频繁重启,将会产生故障告警。

    • 监听对象:/run/log/journal目录下的日志

    Docker频繁重启

    FrequentDockerRestart

    通过定期回溯系统日志,检查容器运行时Docker是否频繁重启

    Containerd频繁重启

    FrequentContainerdRestart

    通过定期回溯系统日志,检查容器运行时Containerd是否频繁重启

    Kubelet服务异常

    KubeletProblem

    检查关键组件Kubelet的运行状态

    KubeProxy异常

    KubeProxyProblem

    检查关键组件KubeProxy的运行状态

    表4 系统指标

    故障检查项

    功能

    说明

    连接跟踪表耗尽

    ConntrackFullProblem

    检查连接跟踪表是否耗尽

    • 默认阈值:90%
    • 使用量:nf_conntrack_count
    • 最大值:nf_conntrack_max

    磁盘资源不足

    DiskProblem

    检查节点系统盘、CCE数据盘(包含CRI逻辑盘与Kubelet逻辑盘)的磁盘使用情况

    • 默认阈值:90%
    • 数据来源:
      df -h

    当前暂不支持额外的数据盘

    文件句柄数不足

    FDProblem

    检查系统关键资源FD文件句柄数是否耗尽

    • 默认阈值:90%
    • 使用量:/proc/sys/fs/file-nr中第1个值
    • 最大值:/proc/sys/fs/file-nr中第3个值

    节点内存资源不足

    MemoryProblem

    检查系统关键资源Memory内存资源是否耗尽

    • 默认阈值:80%
    • 使用量:/proc/meminfo中MemTotal-MemAvailable
    • 最大值:/proc/meminfo中MemTotal

    进程资源不足

    PIDProblem

    检查系统关键资源PID进程资源是否耗尽

    • 默认阈值:90%
    • 使用量:/proc/loadavg中nr_threads
    • 最大值:/proc/sys/kernel/pid_max和/proc/sys/kernel/threads-max两者的较小值。
    表5 存储检查

    故障检查项

    功能

    说明

    磁盘只读

    DiskReadonly

    通过定期对节点系统盘、CCE数据盘(包含CRI逻辑盘与Kubelet逻辑盘)进行测试性写操作,检查关键磁盘的可用性

    检测路径:

    • /mnt/paas/kubernetes/kubelet/
    • /var/lib/docker/
    • /var/lib/containerd/
    • /var/paas/sys/log/cceaddon-npd/

    检测路径下会产生临时文件npd-disk-write-ping

    当前暂不支持额外的数据盘

    节点emptydir存储池异常

    EmptyDirVolumeGroupStatusError

    检查节点上临时卷存储池是否正常

    故障影响:依赖存储池的Pod无法正常写对应临时卷。临时卷由于IO错误被内核重挂载成只读文件系统。

    典型场景:用户在创建节点时配置两个数据盘作为临时卷存储池,用户误操作删除了部分数据盘导致存储池异常。

    • 检测周期:30秒
    • 数据来源:
      vgs -o vg_name, vg_attr
    • 检测原理:检查VG(存储池)是否存在p状态,该状态表征部分PV(数据盘)丢失。
    • 节点持久卷存储池异常调度联动:调度器可自动识别此异常状态并避免依赖存储池的Pod调度到该节点上。
    • 例外场景:NPD无法检测所有PV(数据盘)丢失,导致VG(存储池)丢失的场景;此时依赖kubelet自动隔离该节点,其检测到VG(存储池)丢失并更新nodestatus.allocatable中对应资源为0,避免依赖存储池的Pod调度到该节点上。无法检测单个PV损坏;此时依赖ReadonlyFilesystem检测异常。

    节点持久卷存储池异常

    LocalPvVolumeGroupStatusError

    检查节点上持久卷存储池是否正常

    故障影响:依赖存储池的Pod无法正常写对应持久卷。持久卷由于IO错误被内核重挂载成只读文件系统。

    典型场景:用户在创建节点时配置两个数据盘作为持久卷存储池,用户误操作删除了部分数据盘。

    挂载点异常

    MountPointProblem

    检查节点上的挂载点是否异常

    异常定义:该挂载点不可访问(cd)

    典型场景:节点挂载了nfs(网络文件系统,常见有obsfs、s3fs等),当由于网络或对端nfs服务器异常等原因导致连接异常时,所有访问该挂载点的进程均卡死。例如集群升级场景kubelet重启时扫描所有挂载点,当扫描到此异常挂载点会卡死,导致升级失败。

    等效检查命令:

    for dir in `df -h | grep -v "Mounted on" | awk "{print \\$NF}"`;do cd $dir; done && echo "ok"

    磁盘卡IO

    DiskHung

    检查节点上所有磁盘是否存在卡IO,即IO读写无响应

    卡IO定义:系统对磁盘的IO请求下发后未有响应,部分进程卡在D状态

    典型场景:操作系统硬盘驱动异常或底层网络严重故障导致磁盘无法响应

    • 检查对象:所有数据盘
    • 数据来源:

      /proc/diskstat

      等效查询命令:
      iostat -xmt 1
    • 阈值:
      • 平均利用率,ioutil >= 0.99
      • 平均IO队列长度,avgqu-sz >=1
      • 平均IO传输量,iops(w/s) +ioth(wMB/s) <= 1
      说明:

      部分操作系统卡IO时无数据变化,此时计算CPU IO时间占用率,iowait > 0.8。

    磁盘慢IO

    DiskSlow

    检查节点上所有磁盘是否存在慢IO,即IO读写有响应但响应缓慢

    典型场景:云硬盘由于网络波动导致慢IO。

    • 检查对象:所有数据盘
    • 数据来源:

      /proc/diskstat

      等效查询命令
      iostat -xmt 1
    • 默认阈值:

      平均IO时延,await >= 5000ms

    说明:

    卡IO场景下该检查项失效,原因为IO请求未有响应,await数据不会刷新。

    表6 其他检查

    故障检查项

    功能

    说明

    NTP异常

    NTPProblem

    检查节点时钟同步服务ntpd或chronyd是否正常运行,系统时间是否漂移

    默认时钟偏移阈值:8000ms

    进程D异常

    ProcessD

    检查节点是否存在D进程

    默认阈值:连续3次存在10个异常进程

    数据来源:

    • /proc/{PID}/stat
    • 等效命令:ps aux

    例外场景:ProcessD忽略BMS节点下的SDI卡驱动依赖的常驻D进程heartbeat、update

    进程Z异常

    ProcessZ

    检查节点是否存在Z进程

    ResolvConf配置文件异常

    ResolvConfFileProblem

    检查ResolvConf配置文件是否丢失

    检查ResolvConf配置文件是否异常

    异常定义:不包含任何上游域名解析服务器(nameserver)。

    检查对象:/etc/resolv.conf

    存在计划事件

    ScheduledEvent

    检查节点是否存在热迁移计划事件。热迁移计划事件通常由硬件故障触发,是IaaS层的一种自动故障修复手段。

    典型场景:底层宿主机异常,例如风扇损坏、磁盘坏道等,导致其上虚机触发热迁移。

    数据来源:

    • http://169.254.169.254/meta-data/latest/events/scheduled

    该检查项为Alpha特性,默认不开启。

    另外kubelet组件内置如下检查项,但是存在不足,您可通过集群升级或安装NPD进行补足。

    表7 Kubelet内置检查项

    故障检查项

    功能

    说明

    PID资源不足

    PIDPressure

    检查PID是否充足

    • 周期:10秒
    • 阈值:90%
    • 缺点:社区1.23.1及以前版本,该检查项在pid使用量大于65535时失效,详见issue 107107。社区1.24及以前版本,该检查项未考虑thread-max。

    内存资源不足

    MemoryPressure

    检查容器可分配空间(allocable)内存是否充足

    • 周期:10秒
    • 阈值:最大值-100MiB
    • 最大值(Allocable):节点总内存-节点预留内存
    • 缺点:该检测项没有从节点整体内存维度检查内存耗尽情况,只关注了容器部分(Allocable)。

    磁盘资源不足

    DiskPressure

    检查kubelet盘和docker盘的磁盘使用量及inodes使用量

    • 周期:10秒
    • 阈值:90%