资源管理
集群纳管详情中展示集群的节点资源和资源规格分配情况。给节点增加标签,确认节点的用途,在资源规格中,给各个资源用途分配资源规格,支撑任务执行。资源不足时,用户需要单独购买扩展资源包。
- 用平台管理员账号登录Octopus平台。
- 在左侧菜单栏中单击“运维配置 > 集群纳管 ”。
- 单击“cce-user-job”,进入纳管详情界面。
- 单击节点列表操作栏中的“修改标签”,可对节点的用途和标签进行修改。
图1 资源管理
- 选择资源规格页签,单击“新增规格”,选择并填写必要参数,即可新建一种资源规格。
图2 新增规格
- 资源用途:下拉选择,当前可选择数据转换、回放仿真、训练任务、模型评测、模型编译、预标注和数据脱敏任务。
- 节点规格:下拉选择,为新建的资源规格定上限,确保资源规格有节点适配,根据用途从集群中查询。
- 资源规格: 填写资源用途所需要的资源量,各任务推荐最小资源规格如下,用户可在节点规格范围内灵活配置。
表1 资源规格 资源用途
规格
数据转换
1Core_1GiB
回放仿真
1Core_1GiB
训练任务
1Gpu_4Core_16GiB
模型评测
1Gpu_2Core_8GiB
模型编译
2Core_4GiB
预标注
1GPU_2Core_8GiB
数据脱敏
1Core_1GiB
说明:内置容器需要1Gpu_12Core_48GiB。
建议规格中的GPU类型和实际使用的GPU一致,避免管理混乱。
- 选择资源规格页签,单击操作栏“删除”,可删除规格。
资源规格相关操作
在“资源规格管理”列表,可对纳管进行以下操作。
任务 |
操作步骤 |
---|---|
筛选规格 |
在“资源用途”栏,可按用途类型筛选规格并展示目标规格。 |
删除规格 |
单击操作栏“删除”,可删除规格。 |