更新时间:2024-12-31 GMT+08:00
分享

创建Ray集群

前提条件

  • 已有可正常使用的华为云账号。
  • 已有至少一个正常可用的工作空间。
  • 已购买相应的Ray资源。

操作步骤

  1. 登录Fabric工作空间管理台
  2. 选择已创建的工作空间,单击“进入工作空间”,选择“资源与资产 > Ray集群”。单击右上角的创建Ray集群。
  3. 在创建Ray集群界面,参照创建Ray集群参数说明根据需求选择合适的head以及worker规格以及数量,参数填写完成后,单击“创建”即可创建Ray集群。

    图1 创建Ray集群
    表1 创建Ray集群参数说明

    参数

    参数说明

    集群名称

    创建Ray集群的名称。

    Ray类型

    选择公共Ray镜像包。

    Ray镜像包版本

    可根据需求选择不同的Ray版本,版本号与Ray社区的版本一致。

    Head规格

    创建Ray集群的head节点规格,可根据业务需求选择。

    规格选择列表中可以看到所有的规格,选择的规格可根据创建的Ray资源向下兼容,比如创建了一个fabric.ray.dpu.d4x的资源,那么在选择head规格的时候可以选择fabric.ray.dpu.d1x、fabric.ray.dpu.d2x、fabric.ray.dpu.d4x,即一个大的资源规格可以被拆分为多个小的资源规格。

    Worker规格

    创建Ray集群的worker group规格,可创建多个worker group。

    从资源规格列表中选择一个规格部署Worker节点,同时配置worker节点的数量上/下限,worker节点下限至少需要填1,上限请根据业务压力填写。Ray集群初始化创建下限数量的worker规格,根据负载压力动态弹性扩缩到上限数量。也可添加多种不同规格的worker节点。worker节点的规格选择也遵循已有资源向下兼容拆分的规则。例如,当前购买的Ray资源为fabric.ray.dpu.d4x,其中head节点规格选择了fabric.ray.dpu.d1x,那么worker节点也可以选择fabric.ray.dpu.d1x,同时数量上限设置为3。

您可以手动刷新查看Ray集群创建状态,创建过程约需要3-5分钟。

如果创建Ray集群失败,再次创建之前需要先删除创建失败的Ray集群,避免失败的集群继续占用资源。

相关文档