节点故障检测策略
节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。
前提条件
集群中已安装npd插件。
开启节点故障检测
- 登录CCE控制台,单击集群名称进入集群。
- 在左侧选择“节点管理”,检查集群中是否已安装npd插件,或将其升级至最新版本。npd安装成功后,可正常使用故障检测策略功能。
- npd运行正常时,单击“故障检测策略”,可查看当前故障检测项。关于NPD检查项列表请参见NPD检查项。
- 当前节点检查结果异常时,将在节点列表处提示“指标异常”。
- 您可单击“指标异常”,按照修复建议提示修复。
自定义检查项配置
- 登录CCE控制台,单击集群名称进入集群。
- 在左侧选择“节点管理”,单击“故障检测策略”。
- 在跳转的页面中查看当前检查项配置,单击检查项操作列的“编辑”,自定义检查项配置。
当前支持以下配置:
- 启用/停用:自定义某个检查项的开启或关闭。
- 目标节点配置:检查项默认运行在全部节点,用户可根据特殊场景需要自定义修改故障阈值。例如竞价实例中断回收检查只运行在竞价实例节点。
- 触发阈值配置:默认阈值匹配常见故障场景,用户可根据特殊场景需要自定义修改故障阈值。例如调整“连接跟踪表耗尽”触发阈值由90%调整至80%。
- 检查周期:默认检查周期为30秒,可根据用户场景需要自定义修改检查周期。
- 故障应对策略:故障产生后,可根据用户场景自定义修改故障应对策略,当前故障应对策略如下:
表1 故障应对策略 故障应对策略
效果
提示异常
上报Kuberentes事件。
禁止调度
上报Kuberentes事件,并为节点添加NoSchedule污点。
驱逐节点负载
上报Kuberentes事件,并为节点添加NoExecute污点。该操作会驱逐节点上的负载,可能导致业务不连续,请谨慎选择。
NPD检查项
当前检查项仅1.16.0及以上版本支持。
NPD的检查项主要分为事件类检查项和状态类检查项。
- 事件类检查项
对于事件类检查项,当问题发生时,NPD会向APIServer上报一条事件,事件类型分为Normal(正常事件)和Warning(异常事件)
表2 事件类检查项 故障检查项
功能
说明
OOMKilling
监听内核日志,检查OOM事件发生并上报
典型场景:容器内进程使用的内存超过了Limt,触发OOM并终止该进程
Warning类事件
监听对象:/dev/kmsg
匹配规则:"Killed process \\d+ (.+) total-vm:\\d+kB, anon-rss:\\d+kB, file-rss:\\d+kB.*"
TaskHung
监听内核日志,检查taskHung事件发生并上报
典型场景:磁盘卡IO导致进程卡住
Warning类事件
监听对象:/dev/kmsg
匹配规则:"task \\S+:\\w+ blocked for more than \\w+ seconds\\."
ReadonlyFilesystem
监听内核日志,检查系统内核是否有Remount root filesystem read-only错误
典型场景:用户从ECS侧误操作卸载节点数据盘,且应用程序对该数据盘的对应挂载点仍有持续写操作,触发内核产生IO错误将磁盘重挂载为只读磁盘。
Warning类事件
监听对象:/dev/kmsg
匹配规则:"Remounting filesystem read-only"
- 状态类检查项
对于状态类检查项,当问题发生时,NPD会向APIServer上报一条事件,并同步修改节点状态,可配合Node-problem-controller故障隔离对节点进行隔离。
下列检查项中若未明确指出检查周期,则默认周期为30秒。
表3 系统组件检查 故障检查项
功能
说明
容器网络组件异常
CNIProblem
检查CNI组件(容器网络组件)运行状态
无
容器运行时组件异常
CRIProblem
检查节点CRI组件(容器运行时组件)Docker和Containerd的运行状态
检查对象:Docker或Containerd
Kubelet频繁重启
FrequentKubeletRestart
通过定期回溯系统日志,检查关键组件Kubelet是否频繁重启
Docker频繁重启
FrequentDockerRestart
通过定期回溯系统日志,检查容器运行时Docker是否频繁重启
Containerd频繁重启
FrequentContainerdRestart
通过定期回溯系统日志,检查容器运行时Containerd是否频繁重启
Kubelet服务异常
KubeletProblem
检查关键组件Kubelet的运行状态
无
KubeProxy异常
KubeProxyProblem
检查关键组件KubeProxy的运行状态
无
表4 系统指标 故障检查项
功能
说明
连接跟踪表耗尽
ConntrackFullProblem
检查连接跟踪表是否耗尽
- 默认阈值:90%
- 使用量:nf_conntrack_count
- 最大值:nf_conntrack_max
磁盘资源不足
DiskProblem
检查节点系统盘、CCE数据盘(包含CRI逻辑盘与Kubelet逻辑盘)的磁盘使用情况
- 默认阈值:90%
- 数据来源:
df -h
当前暂不支持额外的数据盘
文件句柄数不足
FDProblem
检查系统关键资源FD文件句柄数是否耗尽
- 默认阈值:90%
- 使用量:/proc/sys/fs/file-nr中第1个值
- 最大值:/proc/sys/fs/file-nr中第3个值
节点内存资源不足
MemoryProblem
检查系统关键资源Memory内存资源是否耗尽
- 默认阈值:80%
- 使用量:/proc/meminfo中MemTotal-MemAvailable
- 最大值:/proc/meminfo中MemTotal
进程资源不足
PIDProblem
检查系统关键资源PID进程资源是否耗尽
- 默认阈值:90%
- 使用量:/proc/loadavg中nr_threads
- 最大值:/proc/sys/kernel/pid_max和/proc/sys/kernel/threads-max两者的较小值。
表5 存储检查 故障检查项
功能
说明
磁盘只读
DiskReadonly
通过定期对节点系统盘、CCE数据盘(包含CRI逻辑盘与Kubelet逻辑盘)进行测试性写操作,检查关键磁盘的可用性
检测路径:
- /mnt/paas/kubernetes/kubelet/
- /var/lib/docker/
- /var/lib/containerd/
- /var/paas/sys/log/cceaddon-npd/
检测路径下会产生临时文件npd-disk-write-ping
当前暂不支持额外的数据盘
磁盘资源不足
DiskProblem
检查节点系统盘、CCE数据盘(包含cri逻辑盘与kubelet逻辑盘)的磁盘使用情况
- 默认阈值:90%
- 数据来源:
df -h
当前暂不支持额外的数据盘
节点emptydir存储池异常
EmptyDirVolumeGroupStatusError
检查节点上临时卷存储池是否正常
故障影响:依赖存储池的Pod无法正常写对应临时卷。临时卷由于IO错误被内核重挂载成只读文件系统。
典型场景:用户在创建节点时配置两个数据盘作为临时卷存储池,用户误操作删除了部分数据盘导致存储池异常。
- 检测周期:30秒
- 数据来源:
vgs -o vg_name, vg_attr
- 检测原理:检查VG(存储池)是否存在p状态,该状态表征部分PV(数据盘)丢失。
- 节点持久卷存储池异常调度联动:调度器可自动识别此异常状态并避免依赖存储池的Pod调度到该节点上。
- 例外场景:NPD无法检测所有PV(数据盘)丢失,导致VG(存储池)丢失的场景;此时依赖kubelet自动隔离该节点,其检测到VG(存储池)丢失并更新nodestatus.allocatable中对应资源为0,避免依赖存储池的Pod调度到该节点上。无法检测单个PV损坏;此时依赖ReadonlyFilesystem检测异常。
节点持久卷存储池异常
LocalPvVolumeGroupStatusError
检查节点上持久卷存储池是否正常
故障影响:依赖存储池的Pod无法正常写对应持久卷。持久卷由于IO错误被内核重挂载成只读文件系统。
典型场景:用户在创建节点时配置两个数据盘作为持久卷存储池,用户误操作删除了部分数据盘。
挂载点异常
MountPointProblem
检查节点上的挂载点是否异常
异常定义:该挂载点不可访问(cd)
典型场景:节点挂载了nfs(网络文件系统,常见有obsfs、s3fs等),当由于网络或对端nfs服务器异常等原因导致连接异常时,所有访问该挂载点的进程均卡死。例如集群升级场景kubelet重启时扫描所有挂载点,当扫描到此异常挂载点会卡死,导致升级失败。
等效检查命令:
for dir in `df -h | grep -v "Mounted on" | awk "{print \\$NF}"`;do cd $dir; done && echo "ok"
磁盘卡IO
DiskHung
检查节点上所有磁盘是否存在卡IO,即IO读写无响应
卡IO定义:系统对磁盘的IO请求下发后未有响应,部分进程卡在D状态
典型场景:操作系统硬盘驱动异常或底层网络严重故障导致磁盘无法响应
磁盘慢IO
DiskSlow
检查节点上所有磁盘是否存在慢IO,即IO读写有响应但响应缓慢
典型场景:云硬盘由于网络波动导致慢IO。
说明:卡IO场景下该检查项失效,原因为IO请求未有响应,await数据不会刷新。
表6 其他检查 故障检查项
功能
说明
NTP异常
NTPProblem
检查节点时钟同步服务ntpd或chronyd是否正常运行,系统时间是否漂移
默认时钟偏移阈值:8000ms
进程D异常
ProcessD
检查节点是否存在D进程
默认阈值:连续3次存在10个异常进程
数据来源:
- /proc/{PID}/stat
- 等效命令:ps aux
例外场景:ProcessD忽略BMS节点下的SDI卡驱动依赖的常驻D进程heartbeat、update
进程Z异常
ProcessZ
检查节点是否存在Z进程
ResolvConf配置文件异常
ResolvConfFileProblem
检查ResolvConf配置文件是否丢失
检查ResolvConf配置文件是否异常
异常定义:不包含任何上游域名解析服务器(nameserver)。
检查对象:/etc/resolv.conf
存在计划事件
ScheduledEvent
检查节点是否存在热迁移计划事件。热迁移计划事件通常由硬件故障触发,是IaaS层的一种自动故障修复手段。
典型场景:底层宿主机异常,例如风扇损坏、磁盘坏道等,导致其上虚机触发热迁移。
数据来源:
- http://169.254.169.254/meta-data/latest/events/scheduled
该检查项为Alpha特性,默认不开启。
另外kubelet组件内置如下检查项,但是存在不足,您可通过集群升级或安装NPD进行补足。
表7 Kubelet内置检查项 故障检查项
功能
说明
PID资源不足
PIDPressure
检查PID是否充足
- 周期:10秒
- 阈值:90%
- 缺点:社区1.23.1及以前版本,该检查项在pid使用量大于65535时失效,详见issue 107107。社区1.24及以前版本,该检查项未考虑thread-max。
内存资源不足
MemoryPressure
检查容器可分配空间(allocable)内存是否充足
- 周期:10秒
- 阈值:最大值-100MiB
- 最大值(Allocable):节点总内存-节点预留内存
- 缺点:该检测项没有从节点整体内存维度检查内存耗尽情况,只关注了容器部分(Allocable)。
磁盘资源不足
DiskPressure
检查kubelet盘和docker盘的磁盘使用量及inodes使用量
- 周期:10秒
- 阈值:90%