更新时间:2026-02-06 GMT+08:00
分享

使用CES自动检测服务器环境并提供事件通知

场景描述

在日常的系统运维过程中,管理员经常需要对机器环境进行检测,以确保系统的稳定性和安全性。然而,传统的检测方式往往依赖于人工操作,不仅耗时耗力,而且容易遗漏潜在的问题。为了解决这一问题,推出了CES-Agent进行机器环境检测的功能。通过这一功能,CES-Agent能够自动检测机器环境中的漏洞和配置问题,并将检测结果上报给轻量算力节点,并在控制台以事件提示的形式展示给用户,并提供直接跳转到修复任务的选项。这样一来,用户不仅能够及时发现系统中存在的问题,还能快速采取措施进行修复,大大提高了系统的安全性和稳定性。

约束限制

当前仅支持Snt9b节点和超节点Snt9b23。

安装最新版CES-Agent后才支持新事件/新恢复事件的上报。

前提条件

轻量算力节点中默认已安装CES-Agent,如未安装请参考安装/升级轻量算力节点中的CES Agent插件操作。

事件查看操作

登录ModelArts管理控制台,在左侧导航栏找到资源管理下的轻量算力节点页面,进入资源列表页面。
  • 新版控制台:在左侧导航栏中,选择资源管理 > 轻量算力资源 > 轻量算力节点
  • 旧版控制台:在左侧导航栏中,选择资源管理 > 轻量算力节点

在页面左上方可以查看事件通知个数,单击事件通知的具体个数,进入事件通知详情页,查看具体情况。

图1 事件通知

在事件通知详情页中,查看具体事件情况及修复建议,在操作列中单击“修复”,可以跳转到对应修复操作页面执行修复操作。

图2 事件通知详情页
表1 支持自动检测并通知的事件

序号

检测项

说明

修复方案

1

系统软件OpenSSH漏洞

系统软件版本低于8.8p1-2.r34时,会上报此事件

调用轻量算力节点任务中心的Ascend系统配置任务,升级系统软件

2

系统软件ipvs-fnat漏洞

系统软件版本低于1.0.1-161.r5时,会上报此事件

调用轻量算力节点任务中心的Ascend系统配置任务,升级系统软件

3

firmware_check.sh脚本中MCU升级流程异常

/opt/huawei/firmware_check目录下不存在firmware_check.sh或upgrade_mcu.sh,或firmware_check.sh中缺少某个标识(认为版本较低)时,会上报此事件。

调用轻量算力节点任务中心的Ascend系统配置任务,替换为最新的脚本

4

HCE 旧镜像无UDP Hash散列配置,RC3.3之前镜像均存在该问题

/opt/huawei/port_config目录下不存在uplink_hash_config.py或uplink_hash_config.sh时,会上报此事件

调用轻量算力节点任务中心的Ascend系统配置任务,替换为最新的脚本

5

crash_kernel配置新约定

kernel.printk、crashkernel、kernel.softlockup_panic配置非最优时,会上报此事件

调用轻量算力节点任务中心的Ascend系统配置任务,修改为最新指定的配置

6

CES-Agent版本和HDK版本不兼容

CES-Agent版本低于2.8.2.2,且HDK版本低于25.x,则认为不兼容,会上报此事件

调用轻量算力节点任务中心的Ascend软件升级任务,升级到指定版本CES-Agent

相关文档