文档首页/ MapReduce服务 MRS/ 组件操作指南(LTS版)/ 使用HetuEngine/ HetuEngine常见问题/ 如何处理HetuEngine SQL运行过程中报错Encountered too many errors
更新时间:2024-12-11 GMT+08:00

如何处理HetuEngine SQL运行过程中报错Encountered too many errors

问题

HetuEngine的业务SQL运行过程中,出现如下报错:

Encountered too many errors talking to a worker node. The node may have crashed or be under too much load. This is probably a transient issue, so please retry your query in a few minutes

回答

可能原因:

  • 部分Worker节点本身故障,例如网络故障、进程内存占用等。
  • Worker节点负载太高,出现OOM(Out of Memory)导致无法提供服务。
  • Worker节点出现GC导致自动重启。

调优方法:

  • Worker节点本身故障:

    若不同时间报错统一出现在同一个Worker上,优先排查该节点本身问题,例如网络是否正常,是否存在其它进程占用节点内存资源。

  • Worker节点负载太高或出现GC:
    1. 使用可访问HetuEngine WebUI界面的用户登录FusionInsight Manager,选择“集群 > 服务 > HetuEngine”,进入HetuEngine服务页面。
    2. 单击“概览”,在概览页签下的“基本信息”区域,单击“HSConsole WebUI”后的链接,进入HSConsole界面。
    3. 在“计算实例”页签,展开计算实例所属租户,确保待修改的计算实例状态为“停止”状态。
    4. 在计算实例所属租户所在行的“操作”列单击“配置”,进入“配置实例”页签。
      1. 增大计算实例中单个Worker的内存大小

        增大单个计算实例配置中的“Worker容器资源配置”的“容器内存(MB)”和“JVM”的“-Xmx”的值。

      2. 控制单个查询在单个Worker的内存使用大小

        在“自定义配置”中单击“增加”,添加2个同名参数“query.max-memory-per-node”,值设置为小于“JVM”中“-Xmx”值的70%的值,参数文件分别选择“coordinator.config.properties”和“worker.config.properties”。

    5. 单击“确定”,并重新启动计算实例。