使用CES自动检测服务器环境并提供事件通知
场景描述
在日常的系统运维过程中,管理员经常需要对机器环境进行检测,以确保系统的稳定性和安全性。然而,传统的检测方式往往依赖于人工操作,不仅耗时耗力,而且容易遗漏潜在的问题。为了解决这一问题,推出了CES-Agent进行机器环境检测的功能。通过这一功能,CES-Agent能够自动检测机器环境中的漏洞和配置问题,并将检测结果上报给轻量算力节点,并在控制台以事件提示的形式展示给用户,并提供直接跳转到修复任务的选项。这样一来,用户不仅能够及时发现系统中存在的问题,还能快速采取措施进行修复,大大提高了系统的安全性和稳定性。
约束限制
当前仅支持Snt9b节点和超节点Snt9b23。
安装最新版CES-Agent后才支持新事件/新恢复事件的上报。
前提条件
轻量算力节点中默认已安装CES-Agent,如未安装请参考安装/升级轻量算力节点中的CES Agent插件操作。
事件查看操作
- 新版控制台:在左侧导航栏中,选择。
- 旧版控制台:在左侧导航栏中,选择。
在页面左上方可以查看事件通知个数,单击事件通知的具体个数,进入事件通知详情页,查看具体情况。
在事件通知详情页中,查看具体事件情况及修复建议,在操作列中单击“修复”,可以跳转到对应修复操作页面执行修复操作。
|
序号 |
检测项 |
说明 |
修复方案 |
|---|---|---|---|
|
1 |
系统软件OpenSSH漏洞 |
系统软件版本低于8.8p1-2.r34时,会上报此事件 |
调用轻量算力节点任务中心的Ascend系统配置任务,升级系统软件 |
|
2 |
系统软件ipvs-fnat漏洞 |
系统软件版本低于1.0.1-161.r5时,会上报此事件 |
调用轻量算力节点任务中心的Ascend系统配置任务,升级系统软件 |
|
3 |
firmware_check.sh脚本中MCU升级流程异常 |
/opt/huawei/firmware_check目录下不存在firmware_check.sh或upgrade_mcu.sh,或firmware_check.sh中缺少某个标识(认为版本较低)时,会上报此事件。 |
调用轻量算力节点任务中心的Ascend系统配置任务,替换为最新的脚本 |
|
4 |
HCE 旧镜像无UDP Hash散列配置,RC3.3之前镜像均存在该问题 |
/opt/huawei/port_config目录下不存在uplink_hash_config.py或uplink_hash_config.sh时,会上报此事件 |
调用轻量算力节点任务中心的Ascend系统配置任务,替换为最新的脚本 |
|
5 |
crash_kernel配置新约定 |
kernel.printk、crashkernel、kernel.softlockup_panic配置非最优时,会上报此事件 |
调用轻量算力节点任务中心的Ascend系统配置任务,修改为最新指定的配置 |
|
6 |
CES-Agent版本和HDK版本不兼容 |
CES-Agent版本低于2.8.2.2,且HDK版本低于25.x,则认为不兼容,会上报此事件 |
调用轻量算力节点任务中心的Ascend软件升级任务,升级到指定版本CES-Agent |