计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

高危操作一览表

更新时间:2024-10-11 GMT+08:00

禁用操作

表1中描述了在集群操作与维护阶段,观察进行日常操作时应注意的禁用操作。

表1 禁用操作

类别

操作风险

严禁删除ZooKeeper相关数据目录

ClickHouse/HDFS/Yarn/HBase/Hive等很多组件都依赖于ZooKeeper,在ZooKeeper中保存元数据信息。删除ZooKeeper中相关数据目录将会影响相关组件的正常运行。

严禁JDBCServer主备节点频繁倒换

频繁主备倒换将导致业务中断。

严禁删除Phoenix系统表或系统表数据(SYSTEM.CATALOG、SYSTEM.STATS、SYSTEM.SEQUENCE、SYSTEM. FUNCTION)

删除系统表将导致无法正常进行业务操作。

严禁手动修改Hive元数据库的数据(hivemeta数据库)

修改Hive元数据可能会导致Hive数据解析错误,Hive无法正常提供服务。

禁止对Hive的元数据表手动进行insertupdate操作

修改Hive元数据可能会导致Hive数据解析错误,Hive无法正常提供服务。

严禁修改Hive私有文件目录hdfs:///tmp/hive-scratch的权限

修改该目录权限可能会导致Hive服务不可用。

严禁修改Kafka配置文件中broker.id

修改Kafka配置文件中broker.id将会导致该节点数据失效。

严禁修改节点主机名

主机名修改后会导致该主机上相关实例和上层组件无法正常提供服务,且无法修复。

禁止重装节点OS

该操作会导致MRS集群进入异常状态,影响MRS集群使用。

禁止使用私有镜像

该操作会导致MRS集群进入异常状态,影响MRS集群使用。

以下各表分别描述了各组件在操作与维护阶段,进行日常操作时应注意的高危操作。

集群高危操作

表2 集群高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

随意修改omm用户下的文件目录或者文件权限

该操作会导致MRS集群服务不可用

★★★★★

请勿执行该操作

观察MRS集群服务是否可用

绑定弹性公网IP

该操作会将集群的manager所在的master节点暴露在公网,会增大来自互联网的网络攻击风险可能性

★★★★★

请确认绑定的弹性公网IP为可信任的公网访问IP

开放集群22端口安全组规则

该操作会增大用户利用22进行漏洞攻击的风险

★★★★★

针对开放的22端口进行设置安全组规则,只允许可信的IP可以访问该端口,入方向规则不推荐设置允许0.0.0.0可以访问。

删除集群或删除集群数据

该操作会导致数据丢失

★★★★★

删除前请务必再次确认该操作的必要性,同时要保证数据已完成备份

缩容集群

该操作会导致数据丢失

★★★★★

缩容前请务必再次确认该操作的必要性,同时要保证数据已完成备份

卸载磁盘或格式化数据盘

该操作会导致数据丢失

★★★★★

操作前请请务必再次确认该操作的必要性,同时要保证数据已完成备份

Manager高危操作

表3 Manager高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改OMS密码

该操作会重启OMS各进程,影响集群的管理维护

★★★

修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常

导入证书

该操作会重启OMS进程和整个集群,影响集群的管理维护和业务

★★★

修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

升级

该操作会重启Manager和整个集群,影响集群的管理维护和业务

分配集群管理权限的用户,需要严格管控,以防范可能的安全风险

★★★

修改时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

恢复OMS

该操作会重启Manager和整个集群,影响集群的管理维护和业务

★★★

修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

修改IP

该操作会重启Manager和整个集群,影响集群的管理维护和业务

★★★

修改时确保同一时间无其它管理维护操作,且修改的IP填写正确无误

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

修改日志级别

如果修改为DEBUG,会导致Manager运行速度明显降低

★★

修改前确认操作的必要性,并及时修改回默认设定

更换控制节点

该操作会导致部署在该节点上的服务中断,且当该节点同时为管理节点时,更换节点会导致重启OMS各进程,影响集群的管理维护

★★★

更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

更换管理节点

该操作会导致部署在该节点上的服务中断,会导致重启OMS各进程,影响集群的管理维护

★★★★

更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

重启下层服务时,如果勾选同时重启上层服务

该操作会导致上层服务业务中断,影响集群的管理维护和业务

★★★★

操作前确认操作的必要性,操作时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

修改OLDAP端口

修改该参数时,会重启LdapServer和Kerberos服务和其关联的所有服务,会影响业务运行

★★★★★

操作前确认操作的必要性,操作时确保同一时间无其它管理维护操作

用户删除supergroup组

删除supergroup组导致相关用户权限变小,影响业务访问

★★★★★

修改前确认需要添加的权限,确保用户绑定的supergroup权限删除前,相关权限已经添加,不会对业务造成影响

重启服务

重启过程中会中断服务,如果勾选同时重启上层服务会导致依赖该服务的上层服务中断

★★★

操作前确认重启的必要性

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

修改节点SSH默认端口

修改默认端口(22)将导致创建集群、添加服务/实例、添加主机、重装主机等功能无法正常使用,并且会导致集群健康检查结果中节点互信、omm/ommdba用户密码过期等检查项不准确

★★★

执行相关操作前将SSH端口改回默认值

ClickHouse高危操作

表4 ClickHouse高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

删除数据目录

该操作将会导致业务信息丢失

★★★

请勿手动删除数据目录

观察数据目录是否正常

缩容ClickHouseServer实例

该操作需要关注同分片中的ClickHouseServer实例节点需要同时退服缩容,否则会造成逻辑集群拓扑信息错乱;该操作执行前需检查逻辑集群内各节点的数据库和数据表信息,进行缩容预分析,保证缩容退服过程中数据迁移成功,避免数据丢失

★★★★★

进行缩容操作前,提前收集信息进行ClickHouse逻辑集群及实例节点状态判断

观察ClickHouse逻辑集群拓扑信息,各ClickHouseServer中数据库和数据表信息,以及数据量

扩容ClickHouseServer实例

该操作需要关注新扩容节点是否需要创建老节点上同名的数据库或数据表,否则会造成后续数据迁移、数据均衡以及缩容退服失败

★★★★★

进行扩容操作前,确认新扩容ClickHouseServer实例作用和目的,是否需要同步创建相关数据库和数据表

观察ClickHouse逻辑集群拓扑信息,各ClickHouseServer中数据库和数据表信息,以及数据量

退服ClickHouseServer实例

该操作需要关注同分片中的ClickHouseServer实例节点需要同时退服,否则会造成逻辑集群拓扑信息错乱;该操作执行前需检查逻辑集群内各节点的数据库和数据表信息,进行预分析,保证退服过程中数据迁移成功,避免数据丢失

★★★★★

进行退服操作前,提前收集信息进行Clickhouse逻辑集群及实例节点状态判断

观察ClickHouse逻辑集群拓扑信息,各ClickHouseServer中数据库和数据表信息,以及数据量

入服ClickHouseServer实例

该操作需要关注入服时必须选择原有分片中的所有节点入服,否则会造成逻辑集群拓扑信息错乱

★★★★★

进行入服操作前,对于待入服节点的分片归属信息需要确认

观察ClickHouse逻辑集群拓扑信息

修改数据目录下内容(创建文件、文件夹)

该操作将会导致该节点上的ClickHouse的实例故障

★★★

请勿手动在数据目录下创建或修改文件及文件夹

观察数据目录是否正常

单独启停基础组件

该操作将会影响服务的一些基础功能导致业务失败

★★★

请勿单独启停ZooKeeper/Kerberos/LDAP等基础组件,启停基础组件请勾选关联服务

观察服务状态是否正常

重启/停止服务

该操作将会导致业务中断

★★

确保在必要时重启/停止服务

观察服务是否运行正常

DBService高危操作

表5 DBService高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改DBService密码

修改密码需要重启服务,服务在重启过程中无法访问。

★★★★

修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作。

观察是否有未恢复的告警产生,观察集群的管理维护是否正常

恢复DBService数据

数据恢复后,会丢失从备份时刻到恢复时刻之间的数据。

数据恢复后,依赖DBService的组件可能配置过期,需要重启配置过期的服务。

★★★★

恢复前确认操作的必要性,恢复时确保同一时间无其它管理维护操作。

观察是否有未恢复的告警产生,观察集群的管理维护是否正常

DBService主备倒换

倒换DBServer过程中,DBService无法提供服务。

★★

操作前确认该操作的必要性,操作时确保同一时间无其它管理维护操作。

修改DBService浮动IP配置

需要重启DBService服务使配置生效,服务在重启无法访问。

如果浮动IP已被使用过,将会导致配置失败,DBService启动失败。

★★★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效。

观察服务能否正常启动

Flink高危操作

表6 Flink高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改日志级别

如果修改为DEBUG,会影响任务运行性能

★★

修改前确认操作的必要性,并及时修改回默认设定

修改文件权限

该操作可能导致任务运行失败

★★★

修改前确认操作的必要性

观察相关业务操作是否正常

Flume高危操作

表7 Flume高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改Flume实例的启动参数GC_OPTS

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

修改HDFS的副本数目dfs.replication,将默认值由3改为1

导致:

  1. 存储可靠性下降,磁盘故障时,会发生数据丢失
  2. NameNode重启失败,HDFS服务不可用

★★★★

修改相关配置项时,请仔细查看参数说明。保证数据存储的副本数不低于2

观察默认的副本值是否不为1,HDFS服务是否可以正常提供服务

HBase高危操作

表8 HBase高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改加密的相关配置项

  • hbase.regionserver.wal.encryption
  • hbase.crypto.keyprovider.parameters.uri
  • hbase.crypto.keyprovider.parameters.encryptedtext

导致服务启动异常

★★★★

修改相关配置项时请严格按照提示描述,加密相关配置项是有关联的,确保修改后的值有效

观察服务能否正常启动

已使用加密的情况下关闭或者切换加密算法,关闭主要指修改hbase.regionserver.wal.encryption为false,切换主要指AES和SMS4的切换

导致服务启动失败,数据丢失

★★★★

加密HFile和WAL内容的时候,如果已经使用一种加密算法加密并且已经建表,请不要随意关闭或者切换加密算法。

未建加密表(ENCRYPTION=>AES/SMS4)的情况下可以切换,否则禁止操作

修改HBase实例的启动参数GC_OPTS、HBASE_HEAPSIZE

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效,且GC_OPTS与HBASE_HEAPSIZE参数值无冲突

观察服务能否正常启动

使用OfflineMetaRepair工具

导致服务启动异常

★★★★

必须在HBase下线的情况下才可以使用该命令,而且不能在数据迁移的场景中使用该命令

观察HBase服务是否可以正常启动。

HDFS高危操作

表9 HDFS高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改HDFS的NameNode的数据存储目录dfs.namenode.name.dir、DataNode的数据配置目录dfs.datanode.data.dir

导致服务启动异常

★★★★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

执行hadoop distcp命令时,使用-delete参数

Distcp拷贝时,源集群没有而目的集群存在的文件,会在目的集群删除

★★

在使用Distcp的时候,确保是否保留目的集群多余的文件,谨慎使用-delete参数

Distcp数据拷贝后,查看目的的数据是否按照参数配置保留或删除

修改HDFS实例的启动参数GC_OPTS、HADOOP_HEAPSIZE和GC_PROFILE

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效,且GC_OPTS与HADOOP_HEAPSIZE参数值无冲突

观察服务能否正常启动

修改HDFS的副本数目dfs.replication,将默认值由3改为1

导致:

  1. 存储可靠性下降,磁盘故障时,会发生数据丢失
  2. NameNode重启失败,HDFS服务不可用

★★★★

修改相关配置项时,请仔细查看参数说明。保证数据存储的副本数不低于2

观察默认的副本值是否不为1,HDFS服务是否可以正常提供服务

修改Hadoop中各模块的RPC通道的加密方式hadoop.rpc.protection

导致服务故障及业务异常

★★★★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察HDFS及其他依赖HDFS的服务能否正常启动,并提供服务

Hive高危操作

表10 Hive高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改Hive实例的启动参数GC_OPTS

修改该参数可能会导致Hive实例无法启动

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

删除MetaStore所有实例

Hive元数据丢失,Hive无法提供服务

★★★

除非确定丢弃Hive所有表信息,否则不要执行该操作

观察服务能否正常启动

使用HDFS文件系统接口或者HBase接口删除或修改Hive表对应的文件

该操作会导致Hive业务数据丢失或被篡改

★★

除非确定丢弃这些数据,或者确保该修改操作符合业务需求,否则不要执行该操作

观察Hive数据是否完整

使用HDFS文件系统接口或者HBase接口修改Hive表对应的文件或目录访问权限

该操作可能会导致相关业务场景不可用

★★★

请勿执行该操作

观察相关业务操作是否正常

使用HDFS文件系统接口删除或修改文件hdfs:///apps/templeton/hive-3.1.0.tar.gz

该操作可能会导致WebHCat无法正常执行业务

★★

请勿执行该操作

观察相关业务操作是否正常

导出表数据覆盖写入本地目录,例如将t1表中数据导出,覆盖到“/opt/dir”路径下:

insert overwrite local directory '/opt/dir' select * from t1;

该操作会删除目标目录,如果设置错误,会导致软件或者操作系统无法启动

★★★★★

确认需要写入的路径下不要包含任何文件;或者不要使用overwrite关键字

观察目标路径是否有文件丢失

将不同的数据库、表或分区文件指定至相同路径,例如默认仓库路径“/user/hive/warehouse”

执行创建操作后数据可能会紊乱,如果删除其中一个数据库、表或分区,会导致其他对象数据丢失

★★★★★

请勿执行该操作

观察目标路径是否有文件丢失

Kafka高危操作

表11 Kafka高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

删除Topic

该操作将会删除已有的主题和数据

★★★

采用Kerberos认证,保证合法用户具有操作权限,并确保主题名称正确

观察主题是否正常处理

删除数据目录

该操作将会导致业务信息丢失

★★★

请勿手动删除数据目录

观察数据目录是否正常

修改数据目录下内容(创建文件、文件夹)

该操作将会导致该节点上的Broker实例故障

★★★

请勿手动在数据目录下创建或修改文件及文件夹

观察数据目录是否正常

修改磁盘自适应功能“disk.adapter.enable”参数

该操作会在磁盘使用空间达到阈值时调整Topic数据保存周期,超出保存周期的历史数据可能被清除

★★★

若个别Topic不能做保存周期调整,将该Topic配置在“disk.adapter.topic.blacklist”参数中

在KafkaTopic监控页面观察数据的存储周期

修改数据目录“log.dirs”配置

该配置不正确将会导致进程故障

★★★

确保所修改或者添加的数据目录为空目录,且权限正确

观察数据目录是否正常

减容Kafka集群

该操作将会导致部分Topic数据副本数量减少,可能会导致Topic无法访问

★★

请先做好数据副本转移工作,然后再进行减容操作

观察分区所在备份节点是否都存活,确保数据安全

单独启停基础组件

该操作将会影响服务的一些基础功能导致业务失败

★★★

请勿单独启停ZooKeeper/Kerberos/LDAP等基础组件,启停基础组件请勾选关联服务

观察服务状态是否正常

重启/停止服务

该操作将会导致业务中断

★★

确保在必要时重启/停止服务

观察服务是否运行正常

修改配置参数

该操作将需要重启服务使得配置生效

★★

确保在必要时修改配置

观察服务是否运行正常

删除/修改元数据

修改或者删除ZooKeeper上Kafka的元数据可能导致Topic或者Kafka服务不可用

★★★

请勿删除或者修改Kafka在ZooKeeper上保存的元数据信息

观察Topic或者Kafka服务是否可用

修改元数据备份文件

修改Kafka元数据备份文件,并被使用进行Kafka元数据恢复成功后,可能导致Topic或者Kafka服务不可用

★★★

请勿修改Kafka元数据备份文件

观察Topic或者Kafka服务是否可用

KrbServer高危操作

表12 KrbServer高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改KrbServer的参数KADMIN_PORT

修改该参数后,若没有及时重启KrbServer服务和其关联的所有服务,会导致集群内部KrbClient的配置参数异常,影响业务运行

★★★★★

修改该参数后,请重启KrbServer服务和其关联的所有服务

修改KrbServer的参数kdc_ports

修改该参数后,若没有及时重启KrbServer服务和其关联的所有服务,会导致集群内部KrbClient的配置参数异常,影响业务运行

★★★★★

修改该参数后,请重启KrbServer服务和其关联的所有服务

修改KrbServer的参数KPASSWD_PORT

修改该参数后,若没有及时重启KrbServer服务和其关联的所有服务,会导致集群内部KrbClient的配置参数异常,影响业务运行

★★★★★

修改该参数后,请重启KrbServer服务和其关联的所有服务

修改Manager系统域名

若没有及时重启KrbServer服务和其关联的所有服务,会导致集群内部KrbClient的配置参数异常,影响业务运行

★★★★★

修改该参数后,请重启KrbServer服务和其关联的所有服务

配置跨集群互信

该操作会重启KrbServer服务和其关联的所有服务,影响集群的管理维护和业务

★★★★★

更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

LdapServer高危操作

表13 LdapServer高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改LdapServer的参数LDAP_SERVER_PORT

修改该参数后,若没有及时重启LdapServer服务和其关联的所有服务,会导致集群内部LdapClient的配置参数异常,影响业务运行

★★★★★

修改该参数后,请重启LdapServer服务和其关联的所有服务

恢复LdapServer数据

该操作会重启Manager和整个集群,影响集群的管理维护和业务

★★★★★

修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

更换LdapServer所在节点

该操作会导致部署在该节点上的服务中断,且当该节点为管理节点时,更换节点会导致重启OMS各进程,影响集群的管理维护

★★★

更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作

观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常

修改LdapServer密码

修改密码需要重启LdapServer和Kerberos服务,影响集群的管理维护和业务

★★★★

修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作

节点重启导致LdapServer数据损坏

如果未停止LdapServer服务,直接重启LdapServer所在节点,可能导致LdapServer数据损坏

★★★★★

使用LdapServer备份数据进行恢复

Loader高危操作

表14 Loader高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改Loader实例的浮动IP地址loader.float.ip

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察Loader UI是否可以正常连接

修改Loader实例的启动参数LOADER_GC_OPTS

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

往HBase导入数据时,选择清空表数据

目标表的原数据被清空

★★

选择时,确保目标表的数据可以清空

选择前,需确认目标表数据是否可以清空

Spark2x高危操作

说明:

MRS 3.x之前版本,服务名称为Spark。

表15 Spark2x高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

配置项的修改(spark.yarn.queue)

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

配置项的修改(spark.driver.extraJavaOptions)

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

配置项的修改(spark.yarn.cluster.driver.extraJavaOptions)

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

配置项的修改(spark.eventLog.dir)

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

配置项的修改(SPARK_DAEMON_JAVA_OPTS)

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

删除所有JobHistory2x实例

导致历史应用的event log丢失

★★

至少保留一个JobHistory2x实例

观察JobHistory2x中是否可以查看历史应用信息

删除或修改HDFS上的/user/spark2x/jars/8.1.0.1/spark-archive-2x.zip

导致JDBCServer2x启动异常及业务功能异常

★★★

删除/user/spark2x/jars/8.1.0.1/spark-archive-2x.zip,等待10-15分钟,zip包自动恢复

观察服务能否正常启动

Storm高危操作

表16 Storm高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

修改插件相关的配置项:

  • storm.scheduler
  • nimbus.authorizer
  • storm.thrift.transport
  • nimbus.blobstore.class
  • nimbus.topology.validator
  • storm.principal.tolocal

导致服务启动异常

★★★★

修改相关配置项时请严格按照提示描述,确保修改后的类名是存在并有效的

观察服务能否正常启动

修改Storm实例的启动参数GC_OPTS

NIMBUS_GC_OPTS

SUPERVISOR_GC_OPTS

UI_GC_OPTS

LOGVIEWER_GC_OPTS

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

修改用户资源池配置参数resource.aware.scheduler.user.pools

导致业务提交后无法正常运行

★★★

修改相关配置项时请严格按照提示描述,确保给每个用户分配的资源合理有效

观察服务能否正常启动并且业务能否正常运行

修改数据目录

该操作不当会导致服务异常,无法提供服务

★★★★

请勿手动操作数据目录

观察数据目录是否正常

重启服务/实例

该操作会导致服务有短暂中断,如果有业务运行也会引起业务短暂中断

★★★

确保在必要时重启服务

观察服务是否运行正常,业务是否恢复

同步配置(重启服务)

该操作会引起服务重启,导致服务短暂中断,若引起Supervisor重启会导致所运行业务短暂中断

★★★

确保在必要时修改配置

观察服务是否运行正常,业务是否恢复

停止服务/实例

该操作会导致服务停止,业务中断

★★★

确保在必要时停止服务

观察服务是否正常停止

删除/修改元数据

删除Nimbus元数据会导致服务异常,并且已运行业务丢失

★★★★★

请勿手动删除Nimbus元数据文件

观察Nimbus元数据文件是否正常

修改文件权限

修改元数据目录和日志目录权限不当会引起服务异常

★★★★

请勿手动修改文件权限

观察数据目录和日志目录权限是否正常

删除拓扑

该操作会删除正在运行中的拓扑

★★★★

确保在必要时删除拓扑

观察拓扑是否删除成功

Yarn高危操作

表17 Yarn高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

删除或者修改数据目录yarn.nodemanager.local-dirs和yarn.nodemanager.log-dirs

该操作将会导致业务信息丢失

★★★

请勿手动删除数据目录

观察数据目录是否正常

ZooKeeper高危操作

表18 ZooKeeper高危操作

操作名称

操作风险

风险等级

规避措施

重大操作观察项目

删除或者修改ZooKeeper的数据目录

该操作将会导致业务信息丢失

★★★

修改ZooKeeper目录时候,严格按照扩容指导操作

观察服务能否正常启动,关联组件能否正常启动

修改ZooKeeper实例的启动参数GC_OPTS

导致服务启动异常

★★

修改相关配置项时请严格按照提示描述,确保修改后的值有效

观察服务能否正常启动

设置ZooKeeper中znode的ACL信息

修改ZooKeeper中znode的权限,可能会导致其他用户无权限访问该znode,导致系统功能异常

★★★★

修改相关配置项时请严格按照“ZooKeeper权限设置指南”章节操作,确保修改ACL信息,不会影响其他组件正常使用ZooKeeper

观察项目观察其他依赖ZooKeeper的组件能否正常启动,并提供服务

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容