更新时间:2026-02-14 GMT+08:00
分享

专属资源池插件概述

ModelArts提供多种类型的插件,通过安装插件选择性扩展资源池功能,以满足业务需求。

默认安装插件

在创建专属资源池时,会按照资源池类型、作业类型,默认安装相应的插件。

  • 资源池默认安装的插件不支持卸载。
  • 为确保集群稳定运行,平台将自动部署必要的系统组件(如 CoreDNS、metrics-server 等)。这些组件会占用一定的 CPU 与内存资源,请在规划时合理预留资源。若未预留充足余量,可能会影响业务正常运行。
表1 默认安装插件简介

插件名称

插件简介

节点故障检测(ModelArts Node Agent)

ModelArts节点故障检测是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题。

指标监控插件(ModelArts Metric Collector)

ModelArts指标监控插件(metric-collector)是默认内置插件,以节点守护程序运行,可采集节点及作业各类监控指标,并上报到AOM。

AI套件(NV GPU)

AI套件(NV GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。

创建专属资源池时,仅实例规格类型选择“GPU”时自动安装。

AI套件(ModelArts Device Plugin)

AI套件(Ascend NPU)是支持容器里使用Huawei NPU设备的管理插件。

创建专属资源池时,仅实例规格类型选择“NPU”时自动安装。

Volcano调度器(Volcano Scheduler)

Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而 Kubernetes 当下缺失的一系列特性。

创建专属资源池时,作业类型选择“训练作业”、“模型部署 旧版”、“模型部署”时自动安装。

手动安装插件

可根据业务需求,选择性安装插件用于扩展资源池功能。

表2 手动安装插件简介

插件名称

插件简介

节点本地域名解析加速(NodeLocal DNSCache)

NodeLocal DNSCache是运行在集群节点上的守护程序集,通过DNS缓存代理,提高集群DNS性能。

云原生日志采集插件

Log Collect是基于开源Fluent Bit和opentelemetry构建的云原生日志、k8s事件采集插件。log-agent支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志、节点日志及k8s事件日志进行采集与转发到LTS。同时支持上报k8s事件到AOM,用于配置事件告警,默认上报所有异常事件和部分正常事件。

云原生监控插件(kube-prometheus-stack)

云原生监控插件(原名kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。

插件生命周期

表3 插件生命周期

状态

状态属性

说明

安装中

中间状态

插件正处于部署状态。

如遇到插件配置错误或资源不足所有实例均无法调度等情况,系统会在10分钟后将该插件置为“不可用”状态。

运行中

稳定状态

插件正常运行状态,所有插件实例均正常部署,插件可正常使用。

升级中

中间状态

插件正处于更新状态。

不可用

稳定状态

不可用,表示插件状态异常,插件不可使用。可单击状态查看失败原因。

删除中

中间状态

插件处于正在被删除的状态。

如果长时间处于该状态,则说明出现异常。

在插件广场搜索查看插件

ModelArts管理控制台插件广场页面展示了丰富的插件信息,在插件广场页面可搜索查看指定插件详情,并安装插件到指定资源池。

图1 插件广场
表4 插件广场相关操作

操作

说明

操作步骤

搜索查看插件

进入插件广场搜索查看指定插件。

登录ModelArts管理控制台,在控制台左侧导航栏中选择“资源管理 > 辅助工具 > 插件广场”(旧版控制台:“插件广场”),进入“插件广场”页面。

在下拉框中可通过资源池类型过滤插件,也可在搜索框中输入关键词搜索相应的插件。

查看插件详情

在插件广场查看插件详情,包括插件简介、组件列表等信息。

  1. 登录ModelArts管理控制台,在控制台左侧导航栏中选择“资源管理 > 辅助工具 > 插件广场”(旧版控制台:“插件广场”),进入“插件广场”页面。
  2. 单击插件名称,可查看插件详情。

安装插件

部分插件支持手动安装指定插件。可在插件广场安装插件。

  1. 登录ModelArts管理控制台,在控制台左侧导航栏中选择“资源管理 > 辅助工具 > 插件广场”(旧版控制台:“插件广场”),进入“插件广场”页面。
  1. 在待安装的插件卡片中,单击“安装”
  2. “安装插件”弹框中,选择待安装插件的资源类型。部分插件还需要选择插件版本。选择完成后单击“下一步”
    • 专属集群:将插件安装至资源池,不同插件支持安装的资源池类型不同,请以界面为准。
    • 专属节点:将插件安装至资源池中具体节点,请按照界面信息执行相关操作和命令。
  3. 配置插件相关参数。

    由于不同插件支持的配置参数不同,详细步骤请参见插件章节。

在资源池详情页查看专属资源池插件

在资源池详情页的“插件”页签,执行表5中的操作。

表5 插件相关操作

操作

说明

操作步骤

查看插件列表

查看资源池所有插件列表。在此页面,可以查看插件详情、安装插件、升级插件、卸载插件,对插件集中管理。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。

查看插件详情

查看插件详情,包括插件简介、组件列表等信息。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。
  4. 单击插件名称,可查看插件详情。

默认安装插件

创建资源池时默认安装插件,无需手动操作。

创建专属资源池

手动安装插件

在资源池中支持手动安装指定插件。

方式一:

创建专属资源池时安装插件。

方式二:

在插件广场安装插件,详情请见在插件广场搜索查看插件

方式三:

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。
  4. 在未安装插件列表中,选择待安装的插件,单击“安装”
  5. “安装插件”弹框中,配置相关参数。

    由于不同插件支持的配置参数不同,详细步骤请参见插件章节。

编辑插件

编辑插件参数。

  1. 在资源池详情页,切换到“插件”页签。
  2. 在插件列表中,选择待编辑的插件,单击“编辑”

    由于不同插件支持的配置参数不同,详细参数说明请参考各插件的配置参数说明。

    当前仅如下插件版本支持编辑:

    • 节点故障检测(ModelArts Node Agent)插件7.2.0及以上版本
    • AI套件(Ascend NPU)2.1.53及以上版本
    • Volcano调度器插件1.17.11及以上版本
  3. 设置完插件参数后,单击“确定”。

升级插件

将插件升级至新版。

  1. 在资源池详情页,切换到“插件”页签。
  2. 在插件列表中,选择待升级的插件,单击“升级”
    由于不同插件支持的配置参数不同,详细参数说明请参考各插件的配置参数说明。
  3. 设置完插件参数后,单击“确定”。

卸载插件

将插件从资源池中卸载。卸载操作无法恢复,请谨慎操作。

  1. 在资源池详情页,切换到“插件”页签。
  2. 在插件列表中,选择待卸载的插件,单击“卸载”
  3. 在弹出的确认窗口中一键输入“DELETE”,单击“确定”。
图2 插件详情

图3 卸载插件

常见问题

  • 必选安装插件状态显示不可用,或长时间处于安装中/删除中状态时,可联系ModelArts技术人员。
  • 支持安装/卸载的插件状态显示不可用,或长时间处于安装中/删除中状态时,可以卸载后,重装插件。问题未得到解决,可联系ModelArts技术人员。

相关文档