文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-50842 StoreWorker写并发占用比例超过阈值

更新时间：2025-12-11 GMT+08:00

查看PDF

ALM-50842 StoreWorker写并发占用比例超过阈值

告警解释

系统按30秒周期性检测实例StoreWorker并发写占用比例，当检测到数量超过阈值后产生该告警。

当检测到实例StoreWorker并发写占用比例在阈值内时告警恢复。

告警属性

告警ID	告警级别	告警类型	业务类型	是否可自动清除
50842	次要	业务质量告警	MemArtsStore	是

告警参数

参数名称	参数含义
来源	产生告警的集群或系统名称
服务名	产生告警的服务名称
角色名	产生告警的角色名称
主机名	产生告警的主机名

对系统的影响

本节点上正在shufflewrite的分区过多，将导致服务器服务效率下降。

可能原因

负载倾斜性过大，负载压力过大。
节点过少，每个节点压力过大。

处理步骤

检查告警节点的数量占比

在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，查看“告警ID”为“50842”的“定位信息”中的角色名并确定实例的IP地址。
选择“集群 > 服务 > MemArtsStore > 实例”，计算所告警Worker实例占所有Worker实例的比例。
- 如果大于等于5%，执行步骤 3。
- 如果小于5% ，执行步骤 6。

扩容节点

选择“集群 > 服务 > MemArtsStore > 实例”。
选择添加实例，添加Worker实例。
等待2分钟，查看告警是否自动恢复。
- 是，处理完毕。
- 否，执行步骤 8。

回退成native

登录Spark客户端节点，进入目录“/opt/huawei/OneWork/client/Spark/spark/conf”，修改“spark-defaults.conf”文件中的参数spark.shuffle.manager值为sort，如下所示，修改完成后保存退出重新运行任务。
```
spark.shuffle.manager = sort
```
等待2分钟，查看告警是否自动恢复。
- 是，处理完毕。
- 否，执行步骤 8。

收集故障信息

在FusionInsight Manager首页，选择“运维 > 日志 > 下载”。
在“服务”中勾选待操作集群的“MemArtsStore”。
单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”，分别为告警产生时间的前后10分钟，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

不涉及。

父主题： MRS集群告警处理参考

上一篇：ALM-50841 Mempool的业务请求超带宽上限而失败次数超过阈值

下一篇：ALM-50843 Worker节点通讯异常告警

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问