更新时间:2022-12-14 GMT+08:00

管理HetuEngine计算实例

操作场景

HetuEngine的WebUI界面,可以对计算实例进行启动、停止、删除、滚动重启、批量启动、批量停止、批量删除,批量滚动重启等操作。

  • HetuEngine服务重启

    HetuEngine服务处于重启或者滚动重启过程中,请勿通过HSConsole对HetuEngine计算实例进行“创建”、“启动”、“停止”和“删除”等运维操作。

  • HetuEngine计算实例重启
    • HetuEngine计算实例处于重启或者滚动重启过程中,请勿对HetuEngine服务和HetuEngine WebUI界面的数据源进行变更操作,包括修改配置,重启等操作。
    • 如果计算实例只有1个coordinator或者worker,请勿对计算实例进行滚动重启。
    • 如果worker的数量大于10个,实例滚动重启的时间可能会超过200分钟,期间请勿做其他运维操作。
    • 计算实例滚动重启过程HetuEngine会释放Yarn资源并且重新申请,请保证滚动重启过程中Yarn资源的CPU和内存空闲资源足够启动Worker总数量20%的Worker,及该期间Yarn资源不被其他任务抢占,否则会导致实例滚动重启失败。

      Yarn资源:登录FusionInsight Manager,选择“租户资源 > 租户资源管理” ,在“资源配额”中查看队列的空余资源信息。

      单个Worker的CPU和内存资源:使用用于访问HetuEngine WebUI界面的用户登录FusionInsight Manager,选择“集群 > 服务 > HetuEngine”,在概览页签下的“基本信息”区域单击“HSConsole WebUI”后的链接,进入HSConsole界面,单击对应实例所在行“操作”列中的“配置”,在“Worker容器资源配置”中查看容器内存和vcore。

    • 滚动重启过程中,请保证Yarn队列的Coordinator或者Worker的Application Manager(am)运行平稳。

    异常处理

    • 如果滚动重启期间Yarn队列的Coordinator或者Worker的Application Manager(am)发生重启,可能会导致计算实例发生异常,需要停止计算实例,然后启动计算实例进行恢复。
    • 计算实例滚动重启失败后,实例处于亚健康的状态,可能会有coordinator或者worker配置不一样或者数量不一样的情况,计算实例的亚健康状态不会自动恢复,需要手动检查确认和恢复,或者再次执行滚动重启操作,或者执行停止计算实例再启动操作。

前提条件

已创建好用于访问HetuEngine WebUI界面的管理员用户,用户创建具体操作请参见创建HetuEngine用户

  • 拥有hetuadmin用户组的用户为管理员用户,HetuEngine管理员有实例启动、停止、删除权限,普通用户只有查询权限。
  • 如果需要修改租户当前计算实例配置,需要通过HSConsole页面删除现有实例。

操作步骤

  1. 使用可访问HetuEngine WebUI界面的管理员用户登录FusionInsight Manager,选择“集群 > 服务 > HetuEngine”,进入HetuEngine服务页面。
  2. 在概览页签下的“基本信息”区域,单击“HSConsole WebUI”后的链接,进入HSConsole界面。
  3. 在实例的“操作”列中,可对单个作业进行如下操作:

    • 启动实例:单击“启动”。
    • 停止实例:单击“停止”。
    • 删除实例:单击“删除”,删除不再使用的实例,该实例的配置信息也会被删除。
    • 滚动重启实例: 单击“滚动重启”。

  4. 在实例列表的上方,可对作业进行如下操作:

    • 批量启动实例:在实例列表中勾选需要启动的实例,单击“启动”。
    • 批量停止实例:在实例列表中勾选需要停止的实例,单击“停止”。
    • 批量删除实例:在实例列表中勾选需要删除的实例,单击“删除”。
    • 批量滚动重启实例:在实例列表中勾选需要重启的实例,单击“滚动重启”。