创建Ray引擎端点
操作场景
创建Ray端点是用户与AI DataLake引擎服务建立连接的核心操作。通过Ray端点,用户可以与AI DataLake引擎进行交互,执行各种数据处理和分析任务。
前提条件
- 已创建工作空间,详细操作请参见创建工作空间。
- 已创建计算资源,详细操作请参见购买预留资源池。
- 已存在所需镜像,详细操作请参见管理AI DataLake镜像。
创建Ray引擎端点
- 登录AI DataLake管理控制台。
- 在页面左上角切换至对应的工作空间。
- 在左侧导航栏选择“引擎端点 > AI 计算引擎 Ray”进入Ray引擎端点列表页面。
- 单击页面右上角的“创建端点”,配置以下参数并单击“立即创建”。
表1 创建Ray引擎端点 参数
参数说明
端点类型
选择端点类型。
RayCluster:
RayCluster端点提供长期运行、可复用的“计算资源池”,可多次提交Ray作业,适用于需要反复交互、多任务共享常驻环境的场景。
端点名称
输入端点名称,是端点的唯一标识符,不可与已存在的端点重名,且创建后不支持修改。
- 名称只能包含小写字母、数字、中划线,且只能以字母开头,以字母或数字结尾。
- 输入长度不能超过63个字符。
端点显示名称
输入端点显示名称,创建后可修改,用于用户界面展示,方便用户识别和记忆。
- 名称只能包含中文、英文、数字、中划线。
- 输入长度不能超过63个字符。
添加描述(可选)
可单击“添加描述”添加端点描述信息。
用于详细说明端点的用途、背景等信息,帮助其他用户理解该端点的创建目的和使用场景。
资源使用模式
选择资源使用模式。
预留资源:使用预留资源池,资源独享。适合负载稳定、持续运行的业务场景,如生产项目、关键任务。
选择计算资源池
在下拉框中选择已创建的资源池。如果下拉框中没有可选的资源池,可以单击“购买计算资源”进行购买。
Head
配置端点时需要配置计算集群的Head和Workergroups。
Head(主节点)负责集群的初始化和引导,维护所有Worker节点的元数据信息。同时Head节点实时监控整个集群的资源状态(包括CPU、GPU、内存等),基于全局资源视图进行智能调度决策,将计算任务合理分配到最合适的Worker节点上执行,从而实现负载均衡,提升资源利用率。
- 名称:用于标识主节点的名称,系统固定为“Head”。
- 资源规格:从下拉菜单中选择主节点所使用的计算资源规格(如云服务器实例类型,例如:4核8GB、8核16GB等)。
- 卡数:自定义GPU/NPU卡数。
- CPU及内存:配置主节点上运行的辅助Worker进程的资源(如调度、监控等)。
- 操作:Head配置为必填项,不支持删除。
Workergroups
配置端点时需要配置计算集群的Head和Workergroups。
Worker节点负责接收来自Head节点的任务并进行实际的计算处理。通过配置多个Worker节点,可以将大规模计算任务分解成多个子任务并行处理,显著提升计算效率。支持配置最小和最大Worker数量,可以根据任务负载动态调整计算资源,实现资源的高效利用。
- 名称:用于标识工作节点组的名称,如“Workergroup01”,按需增加,便于管理和区分多个节点组。
- 资源规格:选择该工作节点组所使用的计算资源规格(如实例类型),CPU、内存、GPU等资源。
- 每Worker卡数:自定义GPU/NPU卡数。
- CPU及内存:配置每个工作节点的CPU核心数(vCPU)和内存大小(GB),用于任务执行。
- Worker数量(Min-Max):设置该工作节点组中Worker节点的最小和最大数量,支持弹性伸缩。例如:0-3 表示可动态扩展0到3个Worker节点,适用于按需调度。
- 操作:如果不需要某个Workergroup,可单击“操作”列的“删除”。
- 添加Workergroup:如果需要多个Workergroup,可单击“添加Workergroup”,每个端点最多可配置10个Workergroup。
说明:规格配置后,即可在页面右侧的资源配额区域查看端点关联资源池后配置的资源规格及Min和Max资源数量。
镜像配置
单击
,在“预置镜像”或“自定义镜像”页签中选择镜像名称,并勾选镜像版本,单击“确定”。如果当前已有镜像不满足要求,可以参考注册自定义镜像进行注册后,在此处进行选择。
自定义镜像中可以改变作业的容器运行环境,增强作业的功能、性能。
选择临时存储
计算资源组(Worker Groups)负责执行计算任务,而存储资源则用于持久化数据、中间结果或模型文件等。当计算任务需要访问或生成大量数据,且这些数据无法完全由计算节点本地存储或共享存储系统承载时,就需要增加计算资源组外的存储资源。
Ray端点的配置允许用户配置外部的存储资源,用于存储Ray集群的Head和多个Worker的数据。
当计算任务涉及大规模数据、需要数据共享、长期存储、跨环境访问或希望实现存储与计算解耦时,就需要增加计算资源组外的存储资源。
配置存储资源时,请先参考购买存储资源购买存储资源,然后在创建端点时选择已购买的SFS Turbo存储资源。
或端点创建完成后,在存储资源的详情页面中绑定端点。
如果需要多个临时存储,可单击“添加临时存储”,每个端点最多可配置10个临时存储。
存储路径
存储卷(Volume)内的物理子目录。
挂载路径
容器内的绝对路径。
GCS高可用
是否开启GCS高可用。
GCS承担集群元数据的管理职责。未启用高可用时,一旦GCS发生故障,会引发整个集群故障。启用高可用后,GCS可通过Redis恢复元数据,从而防止集群级故障。
勾选该参数后,还需配置“DCS Redis缓存实例”。
DCS Redis缓存实例
DCS Redis缓存实例是一种高性能、高可用的分布式缓存服务,适用于多种应用场景。通过合理配置和管理,可以显著提高应用的性能和可靠性。
在下拉框中选择缓存实例,如果下拉框中没有可选的缓存实例,可以单击“新建缓存实例”进行创建,详细操作请参见购买Redis实例。
缓存实例创建成功后,需要进行以下操作:
- 打开SSL下载证书按钮:单击已购买的缓存实例名称进入概览页面,单击菜单栏的“SSL设置”,打开“SSL证书”的“下载证书”按钮。
- 创建网络连接:选择“资源管理 > 资源网络”,单击资源网络“操作”列的“创建网络连接”。
- 连接名称:配置网络连接名称。
- 名称只能包含小写字母、数字、中划线,且只能以字母开头,以字母或数字结尾。
- 输入长度不能超过63个字符。
- 虚拟私有云:下拉框选择购买Redis实例时配置的虚拟私有云。
- 子网:下拉框选择购买Redis实例时配置的子网。
- 连接名称:配置网络连接名称。
选择“DCS Redis缓存实例”后,需要配置该实例对应的“账号”和“DEW 凭据名称”。
账号
在下拉框中选择账号,如果下拉框中没有可选的账号,可以单击“新建”创建账号,详细操作请参见配置Redis ACL访问账号。
DEW 凭据名称
存储DCS账号的密码,格式:凭据键为“password”,值为实际的密码。
在下拉框中选择DEW凭据,如果下拉框中没有可选的DEW凭据,可以单击“新建”创建DEW凭据,详细操作请参见创建凭据。
- 端点创建后,可在列表中查看相关信息,端点状态变为“运行中”后即可提交作业到该端点中运行。