最新动态
本文介绍了魔坊(ModelArts)模型训推平台各特性版本的功能发布和对应的文档动态,欢迎体验。
2026年02月
序号 | 功能名称 | 功能描述 | 阶段 | 相关文档 |
|---|---|---|---|---|
1 | ModelArts文档导航升级焕新 | ModelArts文档导航围绕大模型开发训推流程开展,不再按产品形态区分用户指南。 ModelArts的专属资源池、轻量算力节点、轻量算力集群文档都合并到《算力资源管理》文档中。 新增《 数据准备》、《模型评测》 、《模型调用》 文档。 | -- |
2025年08月
序号 | 功能名称 | 功能描述 | 阶段 | 相关文档 |
|---|---|---|---|---|
1 | CloudMatrix384超节点资源配置、管理与调度能力增强 | 基于CloudMatrix384超节点的ModelArts专属资源池支持推理任务在线部署单节点内多POD配置,支持逻辑子池动态使用资源 | -- | |
2 | 资源管理(轻量算力节点)新增“节点任务中枢(NodeTaskHub)”插件 |
| -- | |
3 | 新增插件广场能力 | ModelArts平台新增插件广场能力,实现插件一站式汇聚,提供丰富插件资产,主要包含Device Plugin、kube-prometheus-stack、NodeLocal DNS Cache等插件,提升资源使用、运维等的能力,满足客户多种业务诉求。 | -- | |
4 | 新增训练平台故障检测和快恢能力 |
| -- |
2025年06月
序号 | 功能名称 | 功能描述 | 阶段 | 相关文档 |
|---|---|---|---|---|
1 | 【昇腾AI云服务】基于CloudMatrix的超节点云化算力 | 新一代昇腾AI算力CloudMatrix384,支持最大规模384卡高速总线互联,提供高性能、高可靠的超节点集群,支持模型/算法高效运行,使能“百模千态”应用快速落地。
| -- |
2025年05月
序号 | 功能名称 | 功能描述 | 阶段 | 相关文档 |
|---|---|---|---|---|
1 | ModelArts专属资源池支持安装插件 | ModelArts提供多种类型的插件,通过安装插件选择性扩展资源池功能,以满足业务需求。 | 商用 | |
2 | 专属资源池支持查看单个节点的运行作业 | 针对运行中的资源池节点,在资源池详情页面的“节点”页签,可以查看单个节点的运行作业列表。 | 商用 | |
3 | 扩缩容逻辑子池时开启节点绑定的逻辑子池支持节点排水 | 如果是开启节点绑定的逻辑子池,扩缩容时需要确认是否进行节点排水。启用节点排水后将会对扩缩容的节点进行排水,仅本次扩缩容操作生效。 | 商用 |
2025年02月
序号 | 功能名称 | 功能描述 | 阶段 | 相关文档 |
|---|---|---|---|---|
1 | 在轻量算力集群资源池上使用Ascend FaultDiag工具完成日志诊断 | 在ModelArts轻量算力集群环境下使用Ascend FaultDiag工具进行日志诊断的过程,包括日志采集、日志清洗、故障诊断三个步骤。 | 商用 | |
2 | 资源池节点支持换绑逻辑子池 | Standard专属资源池开启节点绑定后,资源池内的节点可换绑指定的逻辑子池。 | 商用 | |
3 | 开启/关闭专属资源池节点绑定 | 当资源池下已创建逻辑子池,支持开启节点绑定,为逻辑子池绑定专属的节点。 | 商用 | |
4 | 资源池节点支持开启/关闭删除锁 | 为了防止节点被误删除或退订,您可以根据业务情况对节点开启删除锁。开启删除锁的节点将无法正常使用删除/退订功能,需要关闭删除锁才可以进行删除/退订。 | 商用 |
2024年12月
序号 | 功能名称 | 功能描述 | 阶段 | 相关文档 |
|---|---|---|---|---|
1 | Dit模型Pytorch迁移与精度性能调优 | DiT(Diffusion Transformers)模型是一种将Transformer架构引入扩散模型的新方法。您可以使用Dit模型在昇腾设备上进行模型迁移,精度及性能调优。 | 商用 | |
2 | 从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) | 介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是专属资源池的Ascend芯片。 | 商用 | |
3 | 训练业务昇腾迁移指导 | 介绍如何将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上,获得较好的模型训练效果。 | 商用 |
2024年11月
序号 | 功能名称 | 功能描述 | 阶段 | 相关文档 |
|---|---|---|---|---|
1 | 自定义镜像训练作业支持配置节点间SSH免密互信 | 当使用MPI和Horovod框架的自定义镜像进行分布式训练时,支持配置训练作业节点间SSH免密互信。 | 商用 | |
2 | 训练作业支持批量录入超参和环境变量 | 在创建和修改训练作业时,支持批量录入超参和环境变量,提升创建效率。 | 商用 | |
3 | 训练作业支持配置卡死检测时间 | ModelArts预置了卡死检测的环境变量“MA_HANG_DETECT_TIME=30”,表示30分钟内进程IO无变化则判定作业卡死。该参数值支持修改。 | 商用 | |
4 | 通过VPC访问通道的方式访问在线服务 | 通过在自己账号的指定VPC下创建终端节点,连接到ModelArts的终端节点服务。 | 商用 | |
5 | MindSpore预置框架支持msrun和torchrun启动方式 | 训练训练中的Ascend-Powered-Engine预置框架支持通过配置环境变量“MA_RUN_METHOD”设置启动方式,可以设置为msrun和torchrun。 | 商用 | |
6 | 轻量算力集群节点支持批量计费 | 轻量算力集群节点支持批量续费、开通自动续费、修改自动续费和退订操作。 | 商用 | |
7 | Snt9b硬件故障支持在线服务故障自动重启 | 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 | 商用 | |
8 | ModelArts Notebook支持创建定时任务 | 介绍了如何创建定时任务、一键运行Notebook文件、如何设置定时执行代码块的时间和频率等。 | 商用 |

