资源管理
集群纳管详情中展示集群的节点资源和资源规格分配情况。给节点增加标签,确认节点的用途,在资源规格中,给各个资源用途分配资源规格,支撑任务执行。资源不足时,用户需要单独购买扩展资源包。
- 用平台管理员账号登录Octopus平台。
- 在左侧菜单栏中单击“运维配置 > 集群纳管 ”。
- 单击CCE类型的集群名称,如“cce-user-job”,进入纳管详情界面。
- 单击节点列表操作栏中的“修改标签”,可对节点的用途和标签进行修改。
- 选择资源规格页签,单击“新增规格”,选择并填写必要参数,即可新建一种资源规格,可以创建仅含CPU、内存的资源规格或者包含GPU、CPU、内存的资源规格。
- 资源用途:下拉选择,当前可选择数据转换、回放仿真、训练任务、模型评测、模型编译、预标注和数据脱敏。
- 节点规格:下拉选择,为新建的资源规格定上限,确保资源规格有节点适配,根据用途从集群中查询。
- 资源规格: 填写资源用途所需要的资源量,各任务推荐最小资源规格如下,用户可在节点规格范围内灵活配置。
表1 资源规格 资源用途
规格
数据转换
1Core_1GiB、1Gpu_2Core_4GiB
回放仿真
1Core_1GiB、1Gpu_2Core_4GiB
训练任务
1Gpu_4Core_16GiB
模型评测
1Gpu_2Core_8GiB
模型编译
2Core_4GiB
预标注
1GPU_2Core_8GiB
数据脱敏
1Core_1GiB
说明:内置容器需要1Gpu_12Core_48GiB。
建议规格中的GPU类型和实际使用的GPU一致,避免管理混乱。
- 选择资源规格页签,单击操作栏“删除”,可删除规格。

并行仿真的资源规格为仿真器、算法等多个程序的资源规格总和。默认的最小资源规格如下:仿真器1Core_1GiB,内置算法2Core_1GiB,默认控制、评测等程序在0.1-0.2Core_256MB;当不接入算法和datahub时,支持的最小资源规格约1.3Core_1.5GiB,当接入算法时,用户需要根据自己的算法所需资源规格来推定并行仿真的总资源规格。
资源规格相关操作
在“资源规格管理”列表,可对纳管进行以下操作。
任务 |
操作步骤 |
---|---|
筛选规格 |
在“资源用途”栏,可按用途类型筛选规格并展示目标规格。 |
删除规格 |
单击操作栏“删除”,可删除规格。 |