更新时间:2025-08-14 GMT+08:00

Standard专属资源池插件概述

ModelArts提供多种类型的插件,通过安装插件选择性扩展资源池功能,以满足业务需求。

默认安装插件

在创建专属资源池时,会按照资源池类型、作业类型,默认安装相应的插件。

资源池默认安装的插件不支持卸载。

表1 默认安装插件简介

插件名称

插件简介

节点故障检测(ModelArts Node Agent)

ModelArts节点故障检测是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题。

指标监控插件(ModelArts Metric Collector)

ModelArts指标监控插件(metric-collector)是默认内置插件,以节点守护程序运行,可采集节点及作业各类监控指标,并上报到AOM。

AI套件(ModelArts Device Plugin)

AI套件(Ascend NPU)是支持容器里使用Huawei NPU设备的管理插件。

创建专属资源池时,仅实例规格类型选择“Ascend”时自动安装。

Volcano调度器(Volcano Scheduler)

Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而 Kubernetes 当下缺失的一系列特性。

创建专属资源池时,作业类型选择“训练作业”时自动安装。

手动安装插件

可根据业务需求,选择性安装插件用于扩展资源池功能。

表2 手动安装插件简介

插件名称

插件简介

节点本地域名解析加速(NodeLocal DNSCache)

NodeLocal DNSCache是运行在集群节点上的守护程序集,通过DNS缓存代理,提高集群DNS性能。

云原生日志采集插件

Log Collect是基于开源Fluent Bit和opentelemetry构建的云原生日志、k8s事件采集插件。log-agent支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志、节点日志及k8s事件日志进行采集与转发到LTS。同时支持上报k8s事件到AOM,用于配置事件告警,默认上报所有异常事件和部分正常事件。

插件生命周期

表3 插件生命周期

状态

状态属性

说明

安装中

中间状态

插件正处于部署状态。

如遇到插件配置错误或资源不足所有实例均无法调度等情况,系统会在10分钟后将该插件置为“不可用”状态。

运行中

稳定状态

插件正常运行状态,所有插件实例均正常部署,插件可正常使用。

升级中

中间状态

插件正处于更新状态。

不可用

稳定状态

不可用,表示插件状态异常,插件不可使用。可单击状态查看失败原因。

删除中

中间状态

插件处于正在被删除的状态。

如果长时间处于该状态,则说明出现异常。

在插件广场搜索查看插件

ModelArts管理控制台插件广场页面展示了丰富的插件信息,在插件广场页面可搜索查看指定插件详情,并安装插件到指定资源池。

表4 插件广场相关操作

操作

说明

操作步骤

搜索查看插件

进入插件广场搜索查看指定插件。

登录ModelArts管理控制台,在控制台左侧导航栏中选择“插件广场”,进入“插件广场”页面。

在下拉框中可通过资源池类型过滤插件,也可在搜索框中输入关键词搜索相应的插件。

查看插件详情

在插件广场查看插件详情,包括插件简介、组件列表等信息。

  1. 登录ModelArts管理控制台,在控制台左侧导航栏中选择“插件广场”,进入“插件广场”页面。
  2. 单击插件名称,可查看插件详情。

安装插件

部分插件支持手动安装指定插件。可在插件广场安装插件。

  1. 登录ModelArts管理控制台,在控制台左侧导航栏中选择“插件广场”,进入“插件广场”页面。
  1. 在待安装的插件卡片中,单击“安装”
  2. “安装插件”弹框中,选择待安装插件的资源类型。部分插件还需要选择插件版本。选择完成后单击“下一步”
    • 专属集群:将插件安装至资源池,不同插件支持安装的资源池类型不同,请以界面为准。
    • 专属节点:将插件安装至资源池中具体节点,请按照界面信息执行相关操作和命令。
  3. 配置插件相关参数。

    由于不同插件支持的配置参数不同,详细步骤请参见插件章节。

在资源池详情页查看Standard资源池插件

在资源池详情页的“插件”页签,执行表5中的操作。

表5 插件相关操作

操作

说明

操作步骤

查看插件列表

查看资源池所有插件列表。在此页面,可以查看插件详情、安装插件、升级插件、卸载插件,对插件集中管理。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 标准算力集群 (Standard Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。

查看插件详情

查看插件详情,包括插件简介、组件列表等信息。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 标准算力集群 (Standard Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。
  4. 单击插件名称,可查看插件详情。

默认安装插件

创建资源池时默认安装插件,无需手动操作。

创建Standard专属资源池

手动安装插件

在资源池中支持手动安装指定插件。

方式一:

创建Standard专属资源池时安装插件。

方式二:

在插件广场安装插件,详情请见在插件广场搜索查看插件

方式三:

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 标准算力集群 (Standard Cluster)”。
  2. 单击资源池名称,进入资源池详情页。
  3. 单击“插件”,切换至“插件”页签。
  4. 在未安装插件列表中,选择待安装的插件,单击“安装”
  5. “安装插件”弹框中,配置相关参数。

    由于不同插件支持的配置参数不同,详细步骤请参见插件章节。

编辑插件

编辑插件参数。

  1. 在资源池详情页,切换到“插件”页签。
  2. 在插件列表中,选择待编辑的插件,单击“编辑”

    由于不同插件支持的配置参数不同,详细参数说明请参考各插件的配置参数说明。

    当前仅如下插件版本支持编辑:

    • 节点故障检测(ModelArts Node Agent)插件7.2.0及以上版本
    • AI套件(Ascend NPU)2.1.53及以上版本
    • Volcano调度器插件1.17.11及以上版本
  3. 设置完插件参数后,单击“确定”。

升级插件

将插件升级至新版。

  1. 在资源池详情页,切换到“插件”页签。
  2. 在插件列表中,选择待升级的插件,单击“升级”
    由于不同插件支持的配置参数不同,详细参数说明请参考各插件的配置参数说明。
  3. 设置完插件参数后,单击“确定”。

卸载插件

将插件从资源池中卸载。卸载操作无法恢复,请谨慎操作。

  1. 在资源池详情页,切换到“插件”页签。
  2. 在插件列表中,选择待卸载的插件,单击“卸载”
  3. 在弹出的确认窗口中一键输入“DELETE”,单击“确定”。
图1 插件详情
图2 卸载插件

常见问题

  • 必选安装插件状态显示不可用,或长时间处于安装中/删除中状态时,可联系ModelArts技术人员。
  • 支持安装/卸载的插件状态显示不可用,或长时间处于安装中/删除中状态时,可以卸载后,重装插件。问题未得到解决,可联系ModelArts技术人员。