最新动态

更新时间:2026/02/10 GMT+08:00
分享

本文介绍了魔坊(ModelArts)模型训推平台各特性版本的功能发布和对应的文档动态,欢迎体验。

2026年02月

序号

功能名称

功能描述

阶段

相关文档

1

ModelArts文档导航升级焕新

ModelArts文档导航围绕大模型开发训推流程开展,不再按产品形态区分用户指南。

ModelArts的专属资源池、轻量算力节点、轻量算力集群文档都合并到《算力资源管理》文档中。

新增《 数据准备》、《模型评测》 、《模型调用》 文档。

--

ModelArts文档

2025年08月

序号

功能名称

功能描述

阶段

相关文档

1

CloudMatrix384超节点资源配置、管理与调度能力增强

基于CloudMatrix384超节点的ModelArts专属资源池支持推理任务在线部署单节点内多POD配置,支持逻辑子池动态使用资源

1、单节点内多POD配置,CloudMatrix384超节点NPU资源使用率提升30%。
2、通过逻辑子池动态调度调整资源,让不同作业在不同的时间段运行以提升资源利用率。

--

管理Standard专属资源池的逻辑子池

2

资源管理(轻量算力节点)新增“节点任务中枢(NodeTaskHub)”插件


ModelArts轻量算力节点新增“节点任务中枢(NodeTaskHub)”插件,支持昇腾软件升级、压测、故障诊断、系统配置等任务的下发,做到基础运维工作(驱动固件升级、系统配置等)快速闭环,故障定位周期最快由3天降为3小时,大幅提升故障定位效率;



该能力仅适用昇腾机型(snt9b、snt9b23),已在贵阳一、华东二、乌兰察布一等Region上线,欢迎体验

--

安装轻量算力节点AI插件

3

新增插件广场能力

ModelArts平台新增插件广场能力,实现插件一站式汇聚,提供丰富插件资产,主要包含Device Pluginkube-prometheus-stack、NodeLocal DNS Cache等插件,提升资源使用、运维等的能力,满足客户多种业务诉求。

--

轻量算力集群插件概述

4

新增训练平台故障检测和快恢能力


对ModelArts的训练作业可靠性增强,提升检测、快恢、日志能力等能力,提高训练作业的可维护性


1、新增作业详情中查看故障恢复与统计数据。
2、新增作业运行中镜像拉取失败、存储挂载失败等异常事件的告警。
3、新增作业日志自动转储,新增算子信息、内存信息等故障信息。

--

查看训练作业事件

2025年06月

序号

功能名称

功能描述

阶段

相关文档

1

【昇腾AI云服务】基于CloudMatrix的超节点云化算力

新一代昇腾AI算力CloudMatrix384,支持最大规模384卡高速总线互联,提供高性能、高可靠的超节点集群,支持模型/算法高效运行,使能“百模千态”应用快速落地。

  • 纵向扩展(Scale up):通过高速网络交换机组成384卡超节点。
  • 横向扩展(Scale out):参数面交换机最大支持16万卡集群规模。

--

轻量算力节点超节点扩容和缩容

2025年05月

序号

功能名称

功能描述

阶段

相关文档

1

ModelArts专属资源池支持安装插件

ModelArts提供多种类型的插件,通过安装插件选择性扩展资源池功能,以满足业务需求。

商用

ModelArts专属资源池插件概述

ModelArts轻量算力集群插件概述

2

专属资源池支持查看单个节点的运行作业

针对运行中的资源池节点,在资源池详情页面的“节点”页签,可以查看单个节点的运行作业列表。

商用

查看专属资源池详情

3

扩缩容逻辑子池时开启节点绑定的逻辑子池支持节点排水

如果是开启节点绑定的逻辑子池,扩缩容时需要确认是否进行节点排水。启用节点排水后将会对扩缩容的节点进行排水,仅本次扩缩容操作生效。

商用

查看专属资源池详情

2025年02月

序号

功能名称

功能描述

阶段

相关文档

1

在轻量算力集群资源池上使用Ascend FaultDiag工具完成日志诊断

在ModelArts轻量算力集群环境下使用Ascend FaultDiag工具进行日志诊断的过程,包括日志采集、日志清洗、故障诊断三个步骤。

商用

在ModelArts轻量算力集群资源池上使用Ascend FaultDiag工具完成日志诊断

2

资源池节点支持换绑逻辑子池

Standard专属资源池开启节点绑定后,资源池内的节点可换绑指定的逻辑子池。

商用

查看专属资源池详情

3

开启/关闭专属资源池节点绑定

当资源池下已创建逻辑子池,支持开启节点绑定,为逻辑子池绑定专属的节点。

商用

查看专属资源池详情

4

资源池节点支持开启/关闭删除锁

为了防止节点被误删除或退订,您可以根据业务情况对节点开启删除锁。开启删除锁的节点将无法正常使用删除/退订功能,需要关闭删除锁才可以进行删除/退订。

商用

管理轻量算力集群节点池

2024年12月

序号

功能名称

功能描述

阶段

相关文档

1

Dit模型Pytorch迁移与精度性能调优

DiT(Diffusion Transformers)模型是一种将Transformer架构引入扩散模型的新方法。您可以使用Dit模型在昇腾设备上进行模型迁移,精度及性能调优。

商用

Dit模型Pytorch迁移与精度性能调优

2

从0制作自定义镜像用于创建训练作业(Pytorch+Ascend)

介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是专属资源池的Ascend芯片。

商用

从0制作自定义镜像用于创建训练作业(Pytorch+Ascend)

3

训练业务昇腾迁移指导

介绍如何将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上,获得较好的模型训练效果。

商用

GPU训练业务迁移至昇腾的通用指导

2024年11月

序号

功能名称

功能描述

阶段

相关文档

1

自定义镜像训练作业支持配置节点间SSH免密互信

当使用MPI和Horovod框架的自定义镜像进行分布式训练时,支持配置训练作业节点间SSH免密互信。

商用

自定义镜像训练作业配置节点间SSH免密互信

2

训练作业支持批量录入超参和环境变量

在创建和修改训练作业时,支持批量录入超参和环境变量,提升创建效率。

商用

创建生产训练作业

3

训练作业支持配置卡死检测时间

ModelArts预置了卡死检测的环境变量“MA_HANG_DETECT_TIME=30”,表示30分钟内进程IO无变化则判定作业卡死。该参数值支持修改。

商用

训练作业卡死检测

4

通过VPC访问通道的方式访问在线服务

通过在自己账号的指定VPC下创建终端节点,连接到ModelArts的终端节点服务。

商用

通过VPC访问通道的方式访问在线服务

5

MindSpore预置框架支持msrun和torchrun启动方式

训练训练中的Ascend-Powered-Engine预置框架支持通过配置环境变量“MA_RUN_METHOD”设置启动方式,可以设置为msrun和torchrun。

商用

预置框架启动文件的启动流程说明

6

轻量算力集群节点支持批量计费

轻量算力集群节点支持批量续费、开通自动续费、修改自动续费和退订操作。

商用

管理轻量算力集群节点池

7

Snt9b硬件故障支持在线服务故障自动重启

当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。

商用

设置在线服务故障自动重启

8

ModelArts Notebook支持创建定时任务

介绍了如何创建定时任务、一键运行Notebook文件、如何设置定时执行代码块的时间和频率等。

商用

在JupyterLab中创建定时任务

相关文档