文档首页/ MapReduce服务 MRS/ 用户指南(安卡拉区域)/ 告警参考/ ALM-12099 集群业务进程发生core dump
更新时间:2024-11-29 GMT+08:00

ALM-12099 集群业务进程发生core dump

告警解释

集群业务提供了core文件管理特性,对应用程序发生crash时产生的core文件进行统一的生命周期管理以及告警通知管理。当检测到有新的core文件产生时,会产生该告警。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

12099

次要

业务质量告警

FusionInsight Manager

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

时间戳

时间戳。

附加信息

详细信息

告警产生的详细信息。

对系统的影响

出现该告警说明某些进程发生了crash。如果是关键进程发生crash,可能会导致集群短暂的不可用。

可能原因

相关进程发生crash。

处理步骤

  • 以下解析查看core文件堆栈信息的操作有可能会涉及到用户的敏感数据,开发或运维人员必须在获得用户授权的情况下才能进行操作。
  • 告警所产生的core文件系统默认保留72小时,文件保存超时或者大小超过设定值后会被系统自动清除。如果产生该告警,请尽快联系运维人员进行处理。
  1. 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行,在告警详情中查看该告警的主机地址,通过附加信息中的“DumpedFilePath”属性查看产生的core文件的存放路径。
  2. omm用户登录产生告警的主机,执行gdb --version命令查看该主机是否安装有gdb工具:

    • 否,请先安装gdb工具,再执行3
    • 是,执行3

  3. 使用gdb工具查看core文件的详细堆栈信息:

    1. 进入“DumpedFilePath”目录,找到core文件。
    2. 执行如下命令获取core文件符号表:

      source $BIGDATA_HOME/mppdb/.mppdbgs_profile

      cd ${BIGDATA_HOME}/FusionInsight_MPPDB_XXX/install/FusionInsight-MPPDB-XXX/package/MPPDB_ALL_PACKAGE

      tar -xzvf GaussDB-Kernel-V300R002C00-操作系统-64bit-symbol.tar.gz

      cd symbols/bin/

      找到与告警中进程名称相同的符号表文件,如“cm_agent”对应的符号表为“cm_agent.symbol”

      将找到的符号表复制至“${GAUSSHOME}/bin”目录下。

    3. 使用gdb --batch -n -ex thread -ex bt core文件名称命令查看core文件详细堆栈信息。

  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统不会自动清除此告警,需手工清除。

参考信息

不涉及。