ALM-16002 Hive SQL执行成功率低于阈值（2.x及以前版本）

告警解释

系统每30秒周期性检测执行的HiveQL成功百分比，HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。执行的HiveQL成功百分比指标默认提供一个阈值范围（90%），当检测到百分比指标低于阈值范围产生该告警。在该告警的定位信息可查看产生该告警的主机名，该主机IP也是HiveServer节点IP。

当系统在一个检测周期检测到该指标高于阈值时，恢复告警。

告警属性

告警ID	告警级别	可自动清除
16002	严重	是

告警参数

参数名称	参数含义
ServiceName	产生告警的服务名称。
RoleName	产生告警的角色名称。
HostName	产生告警的主机名。
Trigger condition	系统当前指标取值满足自定义的告警设置条件。

对系统的影响

系统执行业务能力过低，无法正常响应客户请求。

可能原因

HiveQL命令语法错误
执行Hive on HBase任务时HBase服务异常
依赖的基础服务HDFS、Yarn、ZooKeeper等异常

处理步骤

检查HiveQL命令是否符合语法。
1. 使用Hive客户端连接到产生该告警的HiveServer节点，查询Apache提供的HiveQL语法规范，确认输入的命令是否正确。详情请参见https://cwiki.apache.org/confluence/display/hive/languagemanual。
  - 是，执行2.a。
  - 否，执行1.b。
  若想查看执行错误语句的用户，可下载产生该告警的HiveServer节点的HiveServerAudit日志，下载的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟。打开日志文件查找“Result=FAIL”关键字筛选执行错误语句的日志信息，再根据日志信息中的“UserName”查看执行错误语句的用户。
2. 输入正确的HiveQL语句，观察命令是否正确执行。
  - 是，执行4.e。
  - 否，执行2.a。
检查HBase服务是否异常。
1. 检查是否执行Hive on HBase任务。
  - 是，执行2.b。
  - 否，执行3.a。
2. 在服务列表查看HBase服务是否正常。
  - 是，执行3.a。
  - 否，执行2.c。
3. 查看告警界面的相关告警，参照对应告警帮助进行处理。
4. 输入正确的HiveQL语句，观察命令是否正确执行。
  - 是，执行4.e。
  - 否，执行3.a。
检查Spark服务是否异常。
1. 在服务列表查看Spark服务是否正常。
  - 是，执行4.a。
  - 否，执行3.b。
2. 查看告警界面的相关告警，参照对应告警帮助进行处理。
3. 输入正确的HiveQL语句，观察命令是否正确执行。
  - 是，执行4.e。
  - 否，执行4.a。
检查HDFS、Yarn、ZooKeeper等是否正常。
1. 登录MRS集群详情页面，选择“组件管理”。
2. 在服务列表查看HDFS、Yarn、ZooKeeper等服务是否正常。
  - 是，执行4.e。
  - 否，执行4.c。
3. 查看告警界面的相关告警，参照对应告警帮助进行处理。
4. 输入正确的HiveQL语句，观察命令是否正确执行。
  - 是，执行4.e。
  - 否，执行步骤 5。
5. 等待一分钟，查看本告警是否清除。
  - 是，处理结束。
  - 否，执行步骤 5。
收集故障信息。
1. 在MRS Manager界面，单击“系统设置 > 日志导出”。
2. 请联系运维人员，并发送已收集的故障日志信息。