文档首页/ 云运维中心 COC/ 快速入门/ CPU高使用率故障演练
更新时间:2026-01-05 GMT+08:00
分享

CPU高使用率故障演练

云运维中心(Cloud Operations Center,简称 COC)是面向用户的安全高效一站式智能运维平台,可充分满足客户对多类资源的集中化运维管控诉求。其中,混沌演练功能是COC提升系统韧性的核心能力模块,支持用户按需配置演练模板与攻击模板,并基于模板对物理机、虚拟机、CCE 容器等不同类型的基础设施及应用载体开展故障注入演练。同时,该功能内置故障模式管理能力,可帮助用户标准化、规范化地对目标实例执行各类故障模拟操作,以此验证系统在异常场景下的容错能力与恢复效率。

为帮助用户快速掌握混沌演练的配置与执行流程,本章节将以弹性云服务器(ECS)CPU使用率加压这一典型故障场景为例,通过分步操作指引,详细介绍基于COC开展混沌演练的完整流程。

操作流程

  1. 步骤一:同步资源:获取当前用户所属的所有Region下资源数据并同步至云运维中心。
  2. 步骤二:安装UniAgent:给对应机器资源安装UniAgent,用于云运维中心与下层的业务、主机之间的信息交互。
  3. 步骤三:创建应用:管理应用与云资源的关系,并为后续资源的监控、自动化运维等,提供统一、及时的资源环境管理服务。
  4. 步骤四:创建演练任务:针对资源预设演练方案,支持多攻击任务自由编排的故障注入组合。
  5. 步骤五:启动演练:按照已经创建的演练任务,自动进行故障注入。

准备工作

  1. 注册账号并实名认证。

    在使用云运维中心之前,请先注册华为账号并开通华为云,然后实名认证

    如果您已开通华为云并进行实名认证,请忽略此步骤。

  2. 开通云运维中心。

    新用户首次登录云运维中心 ,请先开通云运维中心

    如果您已开通云运维中心,请忽略此步骤。

  3. 已购买“故障演练”套餐包,套餐包说明请参考计费说明

步骤一:同步资源

  1. 登录云运维中心
  2. 在左侧导航栏选择“资源管理 > 应用资源管理”,进入“资源管理”页面。
  3. 选择需要同步的资源类型“弹性云服务器ECS”。
  4. 单击资源列表上方的“同步资源”。
    系统将获取当前用户所属的所有Region下资源数据并同步至云运维中心。
    图1 同步资源

步骤二:安装UniAgent

如果目标实例已安装UniAgent,可忽略此步骤。

  1. 在“资源管理”页面,勾选目标弹性云服务器,选择“UniAgent > 安装”,进入安装UniAgent页面。
    同一个VPC下首次安装UniAgent时,需要手动安装UniAgent,并把安装成功后的主机设置成安装机,相关操作请参考:首次安装UniAgent
    图2 安装UniAgent
  2. 参考表1设置安装UniAgent相关参数。
    表1 安装UniAgent参数说明

    参数

    示例

    说明

    UniAgent版本

    1.1.9.8

    在下拉列表选择UniAgent的版本。

    接入方式

    直连接入(内网)

    接入方式有三种:直连接入(内网)、直连接入(公网)和代理接入。

    • 直连接入(内网):华为云主机,使用直连接入(内网)的方式。
    • 直连接入(公网):非华为云主机,使用直连接入(公网)的方式。
    • 代理接入:通过选择已配置代理机的代理区域,使用代理接入的方式远程安装UniAgent。

    安装机

    -

    在下拉列表选择安装机。

    选择一台已经安装了UniAgent的主机作为安装机,安装机通过代理的方式作为中间桥梁安装UniAgent到同一个VPC下的其他主机。

    需安装UniAgent主机

    -

    填写需安装UniAgent主机的详细信息。

    • 登录账号:登录主机的账号。当操作系统为Linux时,建议使用root账号,可保证有足够的读写权限。
    • 登录端口:访问主机的端口。
    • 密码:登录主机的密码。
    图3 安装UniAgent
  3. 单击“确定”,等待安装完成。

步骤三:创建应用

如果您已创建应用并关联资源,可忽略此步骤。

  1. 在左侧导航栏选择“资源管理 > 应用资源管理”,进入应用资源管理页面。
  2. 单击“应用管理”页签,进入应用管理页面。
  3. 单击“创建应用”,进入创建应用页面。
  4. 设置应用结构类型。
    图4 设置应用结构类型
    表2 应用结构类型参数说明

    参数

    示例

    说明

    应用结构类型

    轻量级应用

    请根据应用结构的复杂类型选择。

  5. 参考表3设置应用结构配置。
    图5 应用结构配置
    表3 应用结构配置参数说明

    参数

    示例

    说明

    应用名称

    test-application

    根据命名规则,自定义应用的名称。填写后单击“确定”,进入新建组件页面。

    组件名称

    test-component

    根据命名规则,自定义组件的名称。填写后单击“确定”,进入新建分组页面。

    分组名称

    test-group

    根据命名规则,自定义分组的名称。

    云厂商

    华为云

    请选择目标实例所在云厂商。

    区域

    华北-北京四

    请选择目标实例所在区域。

    资源关联方式

    手动关联

    请选择资源关联方式。

    关联资源

    -

    请选择需要混沌演练的目标实例。选择后单击“确定”。

  6. 单击“确定”,完成应用创建。

步骤四:创建演练任务

  1. 在左侧导航栏选择“韧性中心 > 混沌演练”页面,进入混沌演练页面。
  2. 单击“演练任务”页签,进入演练任务页面。
  3. 单击“创建演练任务”,进入创建演练任务页面。
  4. 设置演练任务的基础信息。
    图6 设置基础信息
    表4 设置基础信息参数说明

    参数

    示例

    说明

    演练任务名称

    test-drill

    根据命名规则,自定义演练任务的名称。

    期望恢复时长(分钟)

    3

    从故障发生到故障恢复的预期时间

  5. 单击“添加一个新的攻击任务”,进入添加攻击新的攻击任务页面。
  6. 在添加新的攻击任务页面,选择攻击目标,选择完成后单击“下一步”,进入选择攻击场景页面。
    图7 选择攻击目标
    表5 选择攻击目标参数说明

    参数

    示例

    说明

    云厂商

    华为云

    请选择云厂商类型。

    攻击目标来源

    弹性云服务器(ECS)

    请选择目标实例的来源。

    攻击任务名称

    test-attacktask

    根据命名规则,自定义攻击任务的名称。

    攻击目标

    选择步骤三:创建应用中关联的资源

    请选择目标实例。

  7. 参考表6选择攻击场景后,单击“下一步”,进入监控任务配置页面。
    图8 选择攻击场景
    表6 选择攻击场景参数说明

    参数

    示例

    说明

    攻击类型

    主机资源

    根据攻击场景的类型区分。

    攻击场景

    CPU使用率加压

    根据命名规则,自定义攻击任务的名称。

    攻击参数

    • CPU使用率(百分比):80
    • 故障持续时长(秒):60

    根据不同的攻击场景,配置相应的攻击参数。

  8. 在监控任务配置页面设置监控任务。
    • 稳态指标选择“CPU使用率”,阈值区间为1~96。
    • 监控指标选择“CPU使用率”,阈值区间为0~60。
  9. 单击“完成”,即可完成攻击任务添加。
  10. 在创建混沌演练任务页面,单击“确定”,完成演练任务创建。

步骤五:启动演练

  1. 在左侧导航栏选择“韧性中心 > 混沌演练”页面,进入混沌演练页面。
  2. 单击“演练任务”页签,进入演练任务页面。
  3. 在任务列表中选择步骤四:创建演练任务创建的演练任务,单击操作列“启动演练”。
    图9 启动演练
  4. 了解演练风险提示后,单击“确定”。

    启动演练后,自动跳转至演练详情页面,混沌演练平台将按照演练任务设置自动进行故障注入。

    在演练详情页面支持查看攻击进度和攻击详情。

    图10 演练详情

相关文档