专属资源池插件概述
ModelArts提供多种类型的插件,通过安装插件选择性扩展资源池功能,以满足业务需求。
默认安装插件
在创建专属资源池时,会按照资源池类型、作业类型,默认安装相应的插件。
- 资源池默认安装的插件不支持卸载。
- 为确保集群稳定运行,平台将自动部署必要的系统组件(如 CoreDNS、metrics-server 等)。这些组件会占用一定的 CPU 与内存资源,请在规划时合理预留资源。若未预留充足余量,可能会影响业务正常运行。
| 插件名称 | 插件简介 |
|---|---|
| ModelArts节点故障检测是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题。 | |
| ModelArts指标监控插件(metric-collector)是默认内置插件,以节点守护程序运行,可采集节点及作业各类监控指标,并上报到AOM。 | |
| AI套件(NV GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 创建专属资源池时,仅实例规格类型选择“GPU”时自动安装。 | |
| AI套件(Ascend NPU)是支持容器里使用Huawei NPU设备的管理插件。 创建专属资源池时,仅实例规格类型选择“NPU”时自动安装。 | |
| Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而 Kubernetes 当下缺失的一系列特性。 创建专属资源池时,作业类型选择“训练作业”、“模型部署 旧版”、“模型部署”时自动安装。 | |
| KubeInfer插件是一款为复杂推理服务提供高级部署和管理能力的插件。它将需要多个Pod协同工作的服务抽象为统一的“实例”,并实现实例层级的整体调度、滚动升级与故障恢复,以简化大模型等场景下的部署和运维工作。 | |
| ModelArts LWS(LeaderWorkerSet)是一款开源大模型推理模型部署插件。它将一组Pod作为一个整体进行部署,可用于承载分布式推理任务,提供灵活的升级和恢复策略。 | |
| HRA 是一款基于 xPyD 框架构建的高效弹性部署方案。它通过对 P 与 D 组件进行解耦并支持独立伸缩,能够精准匹配不同模块的负载需求,显著提升集群的资源利用率与整体调度效率。 |
手动安装插件
可根据业务需求,选择性安装插件用于扩展资源池功能。
| 插件名称 | 插件简介 |
|---|---|
| NodeLocal DNSCache是运行在集群节点上的守护程序集,通过DNS缓存代理,提高集群DNS性能。 | |
| Log Collect是基于开源Fluent Bit和opentelemetry构建的云原生日志、k8s事件采集插件。log-agent支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志、节点日志及k8s事件日志进行采集与转发到LTS。同时支持上报k8s事件到AOM,用于配置事件告警,默认上报所有异常事件和部分正常事件。 | |
| 云原生监控插件(原名kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 | |
| Mooncake 是一款开源的高性能 LLM 推理增强系统。它通过对 KVCache 进行全局池化管理与跨节点复用, 可以显著降低重复计算开销,大幅提升超长上下文场景下的推理吞吐量与首字响应速度。 |
插件生命周期
| 状态 | 状态属性 | 说明 |
|---|---|---|
| 安装中 | 中间状态 | 插件正处于部署状态。 如遇到插件配置错误或资源不足所有实例均无法调度等情况,系统会在10分钟后将该插件置为“不可用”状态。 |
| 运行中 | 稳定状态 | 插件正常运行状态,所有插件实例均正常部署,插件可正常使用。 |
| 升级中 | 中间状态 | 插件正处于更新状态。 |
| 不可用 | 稳定状态 | 不可用,表示插件状态异常,插件不可使用。可单击状态查看失败原因。 |
| 删除中 | 中间状态 | 插件处于正在被删除的状态。 如果长时间处于该状态,则说明出现异常。 |
在插件广场搜索查看插件
在ModelArts管理控制台插件广场页面展示了丰富的插件信息,在插件广场页面可搜索查看指定插件详情,并安装插件到指定资源池。
| 操作 | 说明 | 操作步骤 |
|---|---|---|
| 搜索查看插件 | 进入插件广场搜索查看指定插件。 | 登录ModelArts管理控制台,在控制台左侧导航栏中选择“资源管理 > 辅助工具 > 插件广场”(旧版控制台:“插件广场”),进入“插件广场”页面。 在下拉框中可通过资源池类型过滤插件,也可在搜索框中输入关键词搜索相应的插件。 |
| 查看插件详情 | 在插件广场查看插件详情,包括插件简介、组件列表等信息。 |
|
| 安装插件 | 部分插件支持手动安装指定插件。可在插件广场安装插件。 |
|
在资源池详情页查看专属资源池插件
在资源池详情页的“插件”页签,执行表5中的操作。
| 操作 | 说明 | 操作步骤 |
|---|---|---|
| 查看插件列表 | 查看资源池所有插件列表。在此页面,可以查看插件详情、安装插件、升级插件、卸载插件,对插件集中管理。 |
|
| 查看插件详情 | 查看插件详情,包括插件简介、组件列表等信息。 |
|
| 默认安装插件 | 创建资源池时默认安装插件,无需手动操作。 | |
| 手动安装插件 | 在资源池中支持手动安装指定插件。 | 方式一: 创建专属资源池时安装插件。 方式二: 在插件广场安装插件,详情请见在插件广场搜索查看插件。 方式三:
|
| 编辑插件 | 编辑插件参数。 |
|
| 升级插件 | 将插件升级至新版。 |
|
| 卸载插件 | 将插件从资源池中卸载。卸载操作无法恢复,请谨慎操作。 |
|
常见问题
- 必选安装插件状态显示不可用,或长时间处于安装中/删除中状态时,可联系ModelArts技术人员。
- 支持安装/卸载的插件状态显示不可用,或长时间处于安装中/删除中状态时,可以卸载后,重装插件。问题未得到解决,可联系ModelArts技术人员。