更新时间:2025-08-14 GMT+08:00
分享

Lite Cluster插件概述

ModelArts提供多种类型的插件,支持通过安装插件选择性扩展Lite Cluster资源池功能,以满足业务需求。

默认安装插件

在创建专属资源池时,已默认安装的插件。

资源池默认安装的插件不支持卸载。

表1 默认安装插件简介

插件名称

插件简介

节点故障检测(ModelArts Node Agent)

ModelArts节点故障检测是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题。

AI套件(ModelArts Device Plugin)

CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。

开通Lite Cluster资源时,仅实例规格类型选择“Ascend”时自动安装。

Volcano调度器

Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而 Kubernetes 当下缺失的一系列特性。

手动安装插件

可根据业务需求,选择性安装插件用于扩展资源池功能。

表2 默认安装插件简介

插件名称

插件简介

集群弹性引擎

集群弹性引擎是一个对集群中ModelArts资源池进行进行弹性伸缩的插件。 集群弹性引擎可以根据用户配置的规则对各节点池进行扩容或者缩容。

插件生命周期

状态

状态属性

说明

安装中

中间状态

插件正处于部署状态。

如遇到插件配置错误或资源不足所有实例均无法调度等情况,系统会在10分钟后将该插件置为“不可用”状态。

运行中

稳定状态

插件正常运行状态,所有插件实例均正常部署,插件可正常使用。

升级中

中间状态

插件正处于更新状态。

不可用

稳定状态

不可用,表示插件状态异常,插件不可使用。可单击状态查看失败原因。

删除中

中间状态

插件处于正在被删除的状态。

如果长时间处于该状态,则说明出现异常。

在插件广场搜索查看插件

ModelArts管理控制台插件广场页面展示了丰富的插件信息,在插件广场页面可搜索查看指定插件详情,并安装插件到指定资源池。

表3 插件广场相关操作

操作

说明

操作步骤

搜索查看插件

进入插件广场搜索查看指定插件。

登录ModelArts管理控制台,在控制台左侧导航栏中选择“插件广场”,进入“插件广场”页面。

在下拉框中可通过资源池类型过滤插件,也可在搜索框中输入关键词搜索相应的插件。

查看插件详情

在插件广场查看插件详情,包括插件简介、组件列表等信息。

  1. 登录ModelArts管理控制台,在控制台左侧导航栏中选择“插件广场”,进入“插件广场”页面。
  2. 单击插件名称,可查看插件详情。

安装插件

部分插件支持手动安装指定插件。可在插件广场安装插件。

  1. 登录ModelArts管理控制台,在控制台左侧导航栏中选择“插件广场”,进入“插件广场”页面。
  1. 在待安装的插件卡片中,单击“安装”
  2. “安装插件”弹框中,选择待安装插件的资源类型。部分插件还需要选择插件版本。选择完成后单击“下一步”
    • 专属集群:将插件安装至资源池,不同插件支持安装的资源池类型不同,请以界面为准。
    • 专属节点:将插件安装至资源池中具体节点,请按照界面信息执行相关操作和命令。
  3. 配置插件相关参数。

    由于不同插件支持的配置参数不同,详细步骤请参见插件章节。

在资源池详情页查看Lite Cluster插件

在资源池详情页的“插件”页签,执行表4中的操作。

表4 插件相关操作

操作

说明

操作步骤

查看插件列表

查看资源池所有插件列表。在此页面,可以查看插件详情、安装插件、升级插件、卸载插件,对插件集中管理。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。

查看插件详情

查看插件详情,包括插件简介、组件列表等信息。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。
  4. 单击插件名称,可查看插件详情。

默认安装插件

创建资源池时默认安装插件,无需手动操作。

Lite Cluster资源开通

手动安装插件

在资源池中安装指定插件。

方式一:

Lite Cluster资源开通时安装插件。

方式二:

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。
  4. 在未安装插件列表中,选择待安装的插件,单击“安装”。如图1所示。
  5. “安装插件”弹框中,配置相关参数。

    当前Lite Cluster支持手动安装集群弹性引擎插件,配置参数说明请见表1

编辑插件

编辑插件参数。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 在资源池详情页,切换到“插件”页签。
  4. 在插件列表中,选择待编辑的插件,单击“编辑”

    由于不同插件支持的配置参数不同,详细步骤请参见插件章节。

    当前仅如下插件版本支持编辑:

    • 节点故障检测(ModelArts Node Agent)插件7.2.0及以上版本
    • AI套件(Ascend NPU)2.1.53及以上版本
    • Volcano调度器插件1.17.11及以上版本
    • 集群弹性引擎插件0.1.13及以上版本
  5. 设置完插件参数后,单击“确定”。

升级插件

将插件升级至新版。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 在资源池详情页,切换到“插件”页签。
  4. 在插件列表中,选择待升级的插件,单击“升级”

    当前Lite Cluster支持手动安装集群弹性引擎插件,配置参数说明请见表1

  5. 设置完插件参数后,单击“确定”。
注意:
  • 插件基于 Helm 模板进行部署,修改或升级操作需通过ModelArts控制台插件列表执行或开放的插件管理 API 执行,切勿直接在 CCE 后台手动修改相关资源,以免引发异常或引入非预期问题,如升级后参数配置丢失或被覆盖等。
  • 插件升级过程中可能影响资源池部分功能的使用,建议在升级前检查所有外部依赖项的状态及版本兼容性,并预留充足的时间窗口进行操作。具体影响内容可参考对应插件的说明章节。

卸载插件

将插件从资源池中卸载。卸载操作无法恢复,请谨慎操作。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 在资源池详情页,切换到“插件”页签。
  4. 在插件列表中,选择待卸载的插件,单击“卸载”
  5. 在弹出的确认窗口中一键输入“DELETE”,单击“确定”。
图1 安装插件

常见问题

  1. 必选安装插件状态显示不可用时,或长时间处于安装中/删除中状态时,可单击资源池名称,查看基本信息,在基本信息的CCE集群里,单击进入该资源池的CCE集群。

    单击插件中心,找到对应的插件,单击插件详情,查看插件的实例列表,单击异常状态,查看具体的异常原因。

  2. 可选插件显示不可用时,或长时间处于安装中/删除中状态时,可先尝试卸载,重装插件。如果重装后插件状态仍显示不可用,可参考上一步骤定位插件异常详情。
  3. 经过以上操作,问题未得到解决,可联系MA技术人员。

相关文档