更新时间:2024-08-16 GMT+08:00
分享

Lite功能介绍

ModelArts Lite基于软硬件深度结合、垂直优化,构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群,提供一站式开通、网络互联、高性能存储、集群管理等能力,满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶、AIGC、内容审核等领域广泛得到应用。

ModelArts Lite又分以下2种形态:

  • ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。
  • ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。

ModelArts Lite Cluster主要支持以下功能:

  • 支持专属备机(高可用冗余节点)

    在ModelArts Console支持用户购买备机也就是“高可用冗余节点”,通过主备节点倒换的方式顶替主节点运行,缩短主备倒换的时间,提升故障切换的成功率,以确保业务的连续性,以解决当前平台仅提供了后台创建“专属备机”的能力,存在用户与SRE沟通效率低、资源恢复不及时、无法自动故障恢复等问题。

  • 同一昇腾算力资源池中,支持存在不同订购周期的服务器

    同一昇腾算力资源池中,支持资源池中订购不同计费类型/计费周期的资源,解决如下用户的使用场景:

    • 用户在包长周期的资源池中无法扩容短周期的节点。
    • 用户无法在包周期的资源池中扩容按需的节点(包括AutoScaler场景)。
  • 支持SFS产品权限划分

    支持SFS权限划分特性,可以实现训练场景中,挂载的SFS的文件夹能够权限控制,避免出现所有人都可以挂载使用,导致某用户误删所有数据的情况。

  • 支持选择资源池的驱动版本

    通过选择资源池的驱动版本,解决资源池所有节点驱动版本一致的时候,并且没有指定驱动版本,会导致后续加入资源池的节点并不能自动升级到该版本情况,优化了当前需手工处理,增加运维成本问题。

  • 支持节点新进入集群,默认启用准入检测,以能够拉起真实的GPU/NPU检测任务

    支持集群扩容时,扩容的节点默认开启准入检测,该准入检测也可关闭,以提升拉起真实的GPU/NPU检测任务成功率。

相关文档