更新时间:2024-11-15 GMT+08:00
Lite Cluster&Server介绍
ModelArts Lite基于软硬件深度结合、垂直优化,构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群,提供一站式开通、网络互联、高性能存储、集群管理等能力,满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶、AIGC、内容审核等领域广泛得到应用。
ModelArts Lite又分以下2种形态:
- ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。
- ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。请参见弹性集群k8s Cluster。
ModelArts Lite Cluster主要支持以下功能:
- 同一昇腾算力资源池中,支持存在不同订购周期的服务器
同一昇腾算力资源池中,支持资源池中订购不同计费类型/计费周期的资源,解决如下用户的使用场景:
- 用户在包长周期的资源池中无法扩容短周期的节点。
- 用户无法在包周期的资源池中扩容按需的节点(包括AutoScaler场景)。
- 支持SFS产品权限划分
支持SFS权限划分特性,可以实现训练场景中,挂载的SFS的文件夹能够权限控制,避免出现所有人都可以挂载使用,导致某用户误删所有数据的情况。
- 支持选择资源池的驱动版本
通过选择资源池的驱动版本,解决资源池所有节点驱动版本一致的时候,并且没有指定驱动版本,会导致后续加入资源池的节点并不能自动升级到该版本情况,优化了当前需手工处理,增加运维成本问题。
- 支持节点新进入集群,默认启用准入检测,以能够拉起真实的GPU/NPU检测任务
支持集群扩容时,扩容的节点默认开启准入检测,该准入检测也可关闭,以提升拉起真实的GPU/NPU检测任务成功率。
父主题: 功能介绍