最新动态
本文介绍了魔坊(ModelArts)模型训推平台各特性版本的功能发布和对应的文档动态,欢迎体验。
2026年02月
|
序号 |
功能名称 |
功能描述 |
阶段 |
相关文档 |
|---|---|---|---|---|
|
1 |
ModelArts文档导航升级焕新 |
ModelArts文档导航围绕大模型开发训推流程开展,不再按产品形态区分用户指南。 ModelArts的专属资源池、轻量算力节点、轻量算力集群文档都合并到《算力资源管理》文档中。 新增《 数据准备》、《模型评测》 、《模型调用》 文档。 |
-- |
2025年08月
|
序号 |
功能名称 |
功能描述 |
阶段 |
相关文档 |
|---|---|---|---|---|
|
1 |
CloudMatrix384超节点资源配置、管理与调度能力增强 |
基于CloudMatrix384超节点的ModelArts专属资源池支持推理任务在线部署单节点内多POD配置,支持逻辑子池动态使用资源 |
-- |
|
|
2 |
资源管理(轻量算力节点)新增“节点任务中枢(NodeTaskHub)”插件 |
|
-- |
|
|
3 |
新增插件广场能力 |
ModelArts平台新增插件广场能力,实现插件一站式汇聚,提供丰富插件资产,主要包含Device Plugin、kube-prometheus-stack、NodeLocal DNS Cache等插件,提升资源使用、运维等的能力,满足客户多种业务诉求。 |
-- |
|
|
4 |
新增训练平台故障检测和快恢能力 |
|
-- |
2025年06月
|
序号 |
功能名称 |
功能描述 |
阶段 |
相关文档 |
|---|---|---|---|---|
|
1 |
【昇腾AI云服务】基于CloudMatrix的超节点云化算力 |
新一代昇腾AI算力CloudMatrix384,支持最大规模384卡高速总线互联,提供高性能、高可靠的超节点集群,支持模型/算法高效运行,使能“百模千态”应用快速落地。
|
-- |
2025年05月
|
序号 |
功能名称 |
功能描述 |
阶段 |
相关文档 |
|---|---|---|---|---|
|
1 |
ModelArts专属资源池支持安装插件 |
ModelArts提供多种类型的插件,通过安装插件选择性扩展资源池功能,以满足业务需求。 |
商用 |
|
|
2 |
专属资源池支持查看单个节点的运行作业 |
针对运行中的资源池节点,在资源池详情页面的“节点”页签,可以查看单个节点的运行作业列表。 |
商用 |
|
|
3 |
扩缩容逻辑子池时开启节点绑定的逻辑子池支持节点排水 |
如果是开启节点绑定的逻辑子池,扩缩容时需要确认是否进行节点排水。启用节点排水后将会对扩缩容的节点进行排水,仅本次扩缩容操作生效。 |
商用 |
2025年02月
|
序号 |
功能名称 |
功能描述 |
阶段 |
相关文档 |
|---|---|---|---|---|
|
1 |
在轻量算力集群资源池上使用Ascend FaultDiag工具完成日志诊断 |
在ModelArts轻量算力集群环境下使用Ascend FaultDiag工具进行日志诊断的过程,包括日志采集、日志清洗、故障诊断三个步骤。 |
商用 |
|
|
2 |
资源池节点支持换绑逻辑子池 |
Standard专属资源池开启节点绑定后,资源池内的节点可换绑指定的逻辑子池。 |
商用 |
|
|
3 |
开启/关闭专属资源池节点绑定 |
当资源池下已创建逻辑子池,支持开启节点绑定,为逻辑子池绑定专属的节点。 |
商用 |
|
|
4 |
资源池节点支持开启/关闭删除锁 |
为了防止节点被误删除或退订,您可以根据业务情况对节点开启删除锁。开启删除锁的节点将无法正常使用删除/退订功能,需要关闭删除锁才可以进行删除/退订。 |
商用 |
2024年12月
|
序号 |
功能名称 |
功能描述 |
阶段 |
相关文档 |
|---|---|---|---|---|
|
1 |
Dit模型Pytorch迁移与精度性能调优 |
DiT(Diffusion Transformers)模型是一种将Transformer架构引入扩散模型的新方法。您可以使用Dit模型在昇腾设备上进行模型迁移,精度及性能调优。 |
商用 |
|
|
2 |
从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) |
介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是专属资源池的Ascend芯片。 |
商用 |
|
|
3 |
训练业务昇腾迁移指导 |
介绍如何将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上,获得较好的模型训练效果。 |
商用 |
2024年11月
|
序号 |
功能名称 |
功能描述 |
阶段 |
相关文档 |
|---|---|---|---|---|
|
1 |
自定义镜像训练作业支持配置节点间SSH免密互信 |
当使用MPI和Horovod框架的自定义镜像进行分布式训练时,支持配置训练作业节点间SSH免密互信。 |
商用 |
|
|
2 |
训练作业支持批量录入超参和环境变量 |
在创建和修改训练作业时,支持批量录入超参和环境变量,提升创建效率。 |
商用 |
|
|
3 |
训练作业支持配置卡死检测时间 |
ModelArts预置了卡死检测的环境变量“MA_HANG_DETECT_TIME=30”,表示30分钟内进程IO无变化则判定作业卡死。该参数值支持修改。 |
商用 |
|
|
4 |
通过VPC访问通道的方式访问在线服务 |
通过在自己账号的指定VPC下创建终端节点,连接到ModelArts的终端节点服务。 |
商用 |
|
|
5 |
MindSpore预置框架支持msrun和torchrun启动方式 |
训练训练中的Ascend-Powered-Engine预置框架支持通过配置环境变量“MA_RUN_METHOD”设置启动方式,可以设置为msrun和torchrun。 |
商用 |
|
|
6 |
轻量算力集群节点支持批量计费 |
轻量算力集群节点支持批量续费、开通自动续费、修改自动续费和退订操作。 |
商用 |
|
|
7 |
Snt9b硬件故障支持在线服务故障自动重启 |
当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 |
商用 |
|
|
8 |
ModelArts Notebook支持创建定时任务 |
介绍了如何创建定时任务、一键运行Notebook文件、如何设置定时执行代码块的时间和频率等。 |
商用 |