文档首页 > > 用户指南> 系统管家> 系统体检

系统体检

分享
更新时间: 2020/01/22 GMT+08:00

系统管家主要分为两部分:系统体检和系统加固,本章节主要介绍系统体检。

系统体检主要用于实时检测并发现节点上的一些故障或者异常情况。

前提条件

  • 使用系统体检功能前需安装npd插件,该插件用于检测节点异常。
  • 使用系统体检功能前需安装prometheus插件,使用该插件可以获取npd上报的异常指标。

操作步骤

  1. 登录CCE控制台,在左侧导航栏中选择系统管家 > 系统体检
  2. 在系统体检页面左侧“节点”区域单击需要进行系统体检的节点,可以看到指标检查、行为统计和Kubernetes事件三个页签,有如下两种情况:

    未安装插件:若未安装 npdprometheus插件,请按照页签下的提示进行安装。插件安装完成后,单击 系统管家 > 系统体检返回系统体检页面查看体检信息。
    图1 安装系统体检所需插件

    已安装插件:若已安装插件,单击指标检查、行为统计和Kubernetes事件三个页签后可直接查看体检信息。

    图2 查看体检信息

  3. 单击“指标检查”页签,可以查看系统资源、系统组件、异常行为和其他信息,并根据体检信息提示进行相应操作。

    表1 创建集群须知

    检查名称

    检查项

    描述

    系统资源

    磁盘

    节点磁盘使用情况

    内存

    节点内存使用情况

    PID

    节点PID进程使用情况

    系统组件

    CANAL

    Canal组件运行情况

    DOCKER

    Docker组件运行情况

    KUBELET

    Kubelet组件运行情况

    KUBEPROXY

    Kubeproxy组件运行情况

    NTP

    NTP组件运行情况

    异常行为

    频繁重启Containerd

    Containerd频繁重启

    频繁重启Docker

    Docker频繁重启

    频繁重启Kubelet

    Kubelet频繁重启

    频繁注销网络设备

    网络设备比如网卡,频繁注销

    Kernel死锁

    os 内核死锁

    文件系统权限异常(只读)

    文件系统是否变成了只读

    其他

    Ready

    节点状态是否ready

  4. 单击“行为统计”页签,可以查看行为信息和行为发生的次数。使用功能,需要安装prometheus插件。
  5. 单击“Kubernetes事件”页签,可以查看该节点的事件名称、事件类型、发生次数、Kubernetes事件、首次和最近发生的时间。

    事件保存时间为1小时,1小时后自动清除数据。

恢复建议

  • 对于系统资源不足,可以到节点上对系统资源进行扩容,或者调整内核参数调大上限。若还是无法恢复节点,可以给节点打上污点标记,使得pod不在调度到该节点,或者驱逐节点上的pod,隔离该节点。
  • 对于系统组件异常或者其他异常行为发生也可以采取给节点打上污点标记进行处理。

相关参考

  • 为节点打污点标记:Taints and Tolerations
  • 稳定驱逐:Safely Drain a Node while Respecting the PodDisruptionBudget
  • 如下三个命令可以保证维护节点时,平滑的将被维护节点上的业务迁移到其他节点上,保证业务不受影响:
    表2 标记节点为可调度或不可调度

    命令

    功能

    用法

    cordon

    标记节点为不可调度

    kubectl cordon {{node-name }}

    uncordon

    标记节点为可调度

    kubectl uncordon {{node-name }}

    drain

    标记节点为不可调度,并驱逐节点上的pod

    kubectl drain {{node-name }}

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区