CPU高使用率故障演练
云运维中心(Cloud Operations Center,简称 COC)是面向用户的安全高效一站式智能运维平台,可充分满足客户对多类资源的集中化运维管控诉求。其中,混沌演练功能是COC提升系统韧性的核心能力模块,支持用户按需配置演练模板与攻击模板,并基于模板对物理机、虚拟机、CCE 容器等不同类型的基础设施及应用载体开展故障注入演练。同时,该功能内置故障模式管理能力,可帮助用户标准化、规范化地对目标实例执行各类故障模拟操作,以此验证系统在异常场景下的容错能力与恢复效率。
为帮助用户快速掌握混沌演练的配置与执行流程,本章节将以弹性云服务器(ECS)CPU使用率加压这一典型故障场景为例,通过分步操作指引,详细介绍基于COC开展混沌演练的完整流程。
操作流程
- 步骤一:同步资源:获取当前用户所属的所有Region下资源数据并同步至云运维中心。
- 步骤二:安装UniAgent:给对应机器资源安装UniAgent,用于云运维中心与下层的业务、主机之间的信息交互。
- 步骤三:创建应用:管理应用与云资源的关系,并为后续资源的监控、自动化运维等,提供统一、及时的资源环境管理服务。
- 步骤四:创建演练任务:针对资源预设演练方案,支持多攻击任务自由编排的故障注入组合。
- 步骤五:启动演练:按照已经创建的演练任务,自动进行故障注入。
准备工作
- 注册账号并实名认证。
在使用云运维中心之前,请先注册华为账号并开通华为云,然后实名认证。
如果您已开通华为云并进行实名认证,请忽略此步骤。
- 开通云运维中心。
新用户首次登录云运维中心 ,请先开通云运维中心。
如果您已开通云运维中心,请忽略此步骤。
- 已购买“故障演练”套餐包,套餐包说明请参考计费说明。
步骤一:同步资源
- 登录云运维中心。
- 在左侧导航栏选择“资源管理 > 应用资源管理”,进入“资源管理”页面。
- 选择需要同步的资源类型“弹性云服务器ECS”。
- 单击资源列表上方的“同步资源”。
系统将获取当前用户所属的所有Region下资源数据并同步至云运维中心。图1 同步资源
步骤二:安装UniAgent
如果目标实例已安装UniAgent,可忽略此步骤。
- 在“资源管理”页面,勾选目标弹性云服务器,选择“UniAgent > 安装”,进入安装UniAgent页面。
同一个VPC下首次安装UniAgent时,需要手动安装UniAgent,并把安装成功后的主机设置成安装机,相关操作请参考:首次安装UniAgent。图2 安装UniAgent
- 参考表1设置安装UniAgent相关参数。
表1 安装UniAgent参数说明 参数
示例
说明
UniAgent版本
1.1.9.8
在下拉列表选择UniAgent的版本。
接入方式
直连接入(内网)
接入方式有三种:直连接入(内网)、直连接入(公网)和代理接入。
- 直连接入(内网):华为云主机,使用直连接入(内网)的方式。
- 直连接入(公网):非华为云主机,使用直连接入(公网)的方式。
- 代理接入:通过选择已配置代理机的代理区域,使用代理接入的方式远程安装UniAgent。
安装机
-
在下拉列表选择安装机。
选择一台已经安装了UniAgent的主机作为安装机,安装机通过代理的方式作为中间桥梁安装UniAgent到同一个VPC下的其他主机。
需安装UniAgent主机
-
填写需安装UniAgent主机的详细信息。
- 登录账号:登录主机的账号。当操作系统为Linux时,建议使用root账号,可保证有足够的读写权限。
- 登录端口:访问主机的端口。
- 密码:登录主机的密码。
图3 安装UniAgent
- 单击“确定”,等待安装完成。
步骤三:创建应用
如果您已创建应用并关联资源,可忽略此步骤。
- 在左侧导航栏选择“资源管理 > 应用资源管理”,进入应用资源管理页面。
- 单击“应用管理”页签,进入应用管理页面。
- 单击“创建应用”,进入创建应用页面。
- 设置应用结构类型。
图4 设置应用结构类型
表2 应用结构类型参数说明 参数
示例
说明
应用结构类型
轻量级应用
请根据应用结构的复杂类型选择。
- 参考表3设置应用结构配置。
图5 应用结构配置
- 单击“确定”,完成应用创建。
步骤四:创建演练任务
- 在左侧导航栏选择“韧性中心 > 混沌演练”页面,进入混沌演练页面。
- 单击“演练任务”页签,进入演练任务页面。
- 单击“创建演练任务”,进入创建演练任务页面。
- 设置演练任务的基础信息。
图6 设置基础信息
表4 设置基础信息参数说明 参数
示例
说明
演练任务名称
test-drill
根据命名规则,自定义演练任务的名称。
期望恢复时长(分钟)
3
从故障发生到故障恢复的预期时间
- 单击“添加一个新的攻击任务”,进入添加攻击新的攻击任务页面。
- 在添加新的攻击任务页面,选择攻击目标,选择完成后单击“下一步”,进入选择攻击场景页面。
图7 选择攻击目标
表5 选择攻击目标参数说明 参数
示例
说明
云厂商
华为云
请选择云厂商类型。
攻击目标来源
弹性云服务器(ECS)
请选择目标实例的来源。
攻击任务名称
test-attacktask
根据命名规则,自定义攻击任务的名称。
攻击目标
选择步骤三:创建应用中关联的资源
请选择目标实例。
- 参考表6选择攻击场景后,单击“下一步”,进入监控任务配置页面。
图8 选择攻击场景
- 在监控任务配置页面设置监控任务。
- 稳态指标选择“CPU使用率”,阈值区间为1~96。
- 监控指标选择“CPU使用率”,阈值区间为0~60。
- 单击“完成”,即可完成攻击任务添加。
- 在创建混沌演练任务页面,单击“确定”,完成演练任务创建。
步骤五:启动演练
- 在左侧导航栏选择“韧性中心 > 混沌演练”页面,进入混沌演练页面。
- 单击“演练任务”页签,进入演练任务页面。
- 在任务列表中选择步骤四:创建演练任务创建的演练任务,单击操作列“启动演练”。
图9 启动演练
- 了解演练风险提示后,单击“确定”。
启动演练后,自动跳转至演练详情页面,混沌演练平台将按照演练任务设置自动进行故障注入。
在演练详情页面支持查看攻击进度和攻击详情。
图10 演练详情