更新时间:2025-07-28 GMT+08:00
分享

升级Lite Cluster资源池单个节点驱动

场景介绍

当Lite Cluster资源池中的节点含有GPU/Ascend资源时,资源池节点性能如果无法满足现有业务,升级驱动可以修复已知问题、提升性能或者支持新功能,确保资源池性能和兼容性得到优化。

ModelArts提供升级Lite Cluster资源池GPU/Ascend驱动的功能,您可根据自身业务需要通过ModelArts控制台升级Lite Cluster资源池GPU/Ascend驱动。

约束限制

Lite Cluster资源池节点驱动状态处于“运行中”,且专属池中的节点需要含有GPU/Ascend资源。

节点驱动升级操作

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
  2. 进入资源池详情页,在节点管理页面,选择需要进行驱动升级的节点,单击操作列的“更多 > 驱动升级”。
  3. “驱动升级”弹窗中,会显示当前专属资源池节点的名称ID、规格和驱动版本号,选择节点待升级的“升级版本”
  4. 单击“确定”,开始升级单个节点的驱动。

    在资源池详情页“节点管理”页面,选择目标资源池,单击操作列中的“更多”。如果“驱动升级”按钮置灰,说明驱动已成功升级。

常见问题

Cluster资源池节点故障如何定位?

对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中。同时,节点故障指标默认会上报到AOM,您可在AOM配置告警通知。

详情请见Cluster资源池节点故障如何定位

相关文档