- 最新动态
- 功能总览
- 服务公告
- 产品介绍
- 计费说明
- 快速入门
-
ModelArts用户指南(Standard)
- ModelArts Standard使用流程
- ModelArts Standard准备工作
- ModelArts Standard资源管理
- 使用自动学习实现零代码AI开发
- 使用Workflow实现低代码AI开发
- 使用Notebook进行AI开发调试
- 数据准备与处理
- 使用ModelArts Standard训练模型
- 使用ModelArts Standard部署模型并推理预测
- 制作自定义镜像用于ModelArts Standard
- ModelArts Standard资源监控
- 使用CTS审计ModelArts服务
- ModelArts用户指南(Studio)
- ModelArts用户指南(Lite Server)
- ModelArts用户指南(Lite Cluster)
- ModelArts用户指南(AI Gallery)
-
最佳实践
- ModelArts最佳实践案例列表
- 昇腾能力应用地图
- DeepSeek系列模型推理
-
LLM大语言模型训练推理
- 在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类
- 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.3.912)
- 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.912)
- 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
- 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
- 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.912)
- 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.912)
- 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.911)
- 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.911)
- 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.911)
- 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.911)
- 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.911)
- 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.911)
- 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.911)
- 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.911)
- 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.910)
- 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.910)
- 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.910)
- 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.910)
- 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.910)
- 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.910)
- 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.910)
- 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.910)
- 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.909)
- 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.909)
- 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
- 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.909)
- 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.909)
- 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.909)
- 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.909)
- 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.909)
- 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.908)
- 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.908)
- 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.908)
- 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.908)
- 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.908)
- 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.908)
- 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.907)
- 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.907)
- 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.907)
- 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
- 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
- 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.907)
- 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.906)
- 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.906)
- 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
- 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)
- 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.905)
- 主流开源大模型基于LIte Server适配PyTorch NPU推理指导(6.3.905)
- 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
- 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.905)
-
MLLM多模态模型训练推理
- Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
- Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
- Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912)
- Qwen-VL基于DevServer适配PyTorch NPU的推理指导(6.3.909)
- MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导(6.3.912)
- MiniCPM-V2.0推理及LoRA微调基于DevServer适配PyTorch NPU指导(6.3.910)
- InternVL2基于LIte Server适配PyTorch NPU训练指导(6.3.912)
- LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导(6.3.912)
- LLaVA模型基于Lite Server适配PyTorch NPU预训练指导(6.3.912)
- LLaVA模型基于DevServer适配PyTorch NPU推理指导(6.3.906)
- Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导(6.3.912)
- LLaMA-VID基于DevServer适配PyTorch NPU推理指导(6.3.910)
- moondream2基于DevServer适配PyTorch NPU推理指导
-
文生图模型训练推理
- FlUX.1基于Lite Server适配PyTorch NPU推理指导(6.3.912)
- FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导(6.3.911)
- Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导(6.3.909)
- SD3.5基于Lite Server适配PyTorch NPU的推理指导(6.3.912)
- SD3基于Lite Server适配PyTorch NPU的训练指导(6.3.912)
- SD3 Diffusers框架基于Lite Server适配PyTorch NPU推理指导(6.3.912)
- SD1.5&SDXL ComfyUI、WebUI、Diffusers套件适配PyTorch NPU的推理指导(6.3.912)
- SD WEBUI套件适配PyTorch NPU的推理指导(6.3.908)
- SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导(6.3.908)
- SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导(6.3.908)
- SDXL基于Standard适配PyTorch NPU的LoRA训练指导(6.3.908)
- SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导(6.3.907)
- SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导(6.3.906)
- SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导(6.3.906)
- SDXL基于Standard适配PyTorch NPU的Finetune训练指导(6.3.905)
- SDXL基于DevServer适配PyTorch NPU的Finetune训练指导(6.3.905)
- SDXL基于DevServer适配PyTorch NPU的LoRA训练指导(6.3.905)
- SD1.5基于DevServer适配PyTorch NPU Finetune训练指导(6.3.904)
- Open-Clip基于DevServer适配PyTorch NPU训练指导
- AIGC工具tailor使用指导
- 文生视频模型训练推理
- 数字人模型训练推理
- 内容审核模型训练推理
- GPU业务迁移至昇腾训练推理
- Standard权限管理
- Standard自动学习
- Standard开发环境
- Standard模型训练
- Standard推理部署
- 历史待下线案例
-
API参考
- 使用前必读
- API概览
- 如何调用API
-
Workflow工作流管理
- 获取Workflow工作流列表
- 新建Workflow工作流
- 删除Workflow工作流
- 查询Workflow工作流
- 修改Workflow工作流
- 总览Workflow工作流
- 查询Workflow待办事项
- 在线服务鉴权
- 创建在线服务包
- 获取Execution列表
- 新建Workflow Execution
- 删除Workflow Execution
- 查询Workflow Execution
- 更新Workflow Execution
- 管理Workflow Execution
- 管理Workflow StepExecution
- 获取Workflow工作流节点度量信息
- 新建消息订阅Subscription
- 删除消息订阅Subscription
- 查询消息订阅Subscription详情
- 更新消息订阅Subscription
- 创建工作流定时调度
- 查询工作流定时调度详情
- 删除工作流定时调度信息
- 更新工作流定时调度信息
-
开发环境管理
- 创建Notebook实例
- 查询Notebook实例列表
- 查询所有Notebook实例列表
- 查询Notebook实例详情
- 更新Notebook实例
- 删除Notebook实例
- 通过运行的实例保存成容器镜像
- 查询Notebook支持的有效规格列表
- 查询Notebook支持的可切换规格列表
- 查询运行中的Notebook可用时长
- Notebook时长续约
- 启动Notebook实例
- 停止Notebook实例
- 获取动态挂载OBS实例信息列表
- 动态挂载OBS
- 获取动态挂载OBS实例详情
- 动态卸载OBS
- 添加资源标签
- 删除资源标签
- 查询Notebook资源类型下的标签
- 查询支持的镜像列表
- 注册自定义镜像
- 查询用户镜像组列表
- 查询镜像详情
- 删除镜像
-
训练管理
- 创建算法
- 查询算法列表
- 查询算法详情
- 更新算法
- 删除算法
- 获取支持的超参搜索算法
- 创建训练实验
- 创建训练作业
- 查询训练作业详情
- 更新训练作业描述
- 删除训练作业
- 终止训练作业
- 查询训练作业指定任务的日志(预览)
- 查询训练作业指定任务的日志(OBS链接)
- 查询训练作业指定任务的运行指标
- 查询训练作业列表
- 查询超参搜索所有trial的结果
- 查询超参搜索某个trial的结果
- 获取超参敏感度分析结果
- 获取某个超参敏感度分析图像的路径
- 提前终止自动化搜索作业的某个trial
- 获取自动化搜索作业yaml模板的信息
- 获取自动化搜索作业yaml模板的内容
- 创建训练作业标签
- 删除训练作业标签
- 查询训练作业标签
- 获取训练作业事件列表
- 创建训练作业镜像保存任务
- 查询训练作业镜像保存任务
- 获取训练作业支持的公共规格
- 获取训练作业支持的AI预置框架
- AI应用管理
- APP认证管理
- 服务管理
- 资源管理
- DevServer管理
- 授权管理
- 工作空间管理
- 配额管理
- 资源标签管理
- 节点池管理
- 应用示例
- 权限策略和授权项
- 公共参数
-
历史API
-
数据管理(旧版)
- 查询数据集列表
- 创建数据集
- 查询数据集详情
- 更新数据集
- 删除数据集
- 查询数据集的统计信息
- 查询数据集监控数据
- 查询数据集的版本列表
- 创建数据集标注版本
- 查询数据集版本详情
- 删除数据集标注版本
- 查询样本列表
- 批量添加样本
- 批量删除样本
- 查询单个样本信息
- 获取样本搜索条件
- 分页查询团队标注任务下的样本列表
- 查询团队标注的样本信息
- 查询数据集标签列表
- 创建数据集标签
- 批量修改标签
- 批量删除标签
- 按标签名称更新单个标签
- 按标签名称删除标签及仅包含此标签的文件
- 批量更新样本标签
- 查询数据集的团队标注任务列表
- 创建团队标注任务
- 查询团队标注任务详情
- 启动团队标注任务
- 更新团队标注任务
- 删除团队标注任务
- 创建团队标注验收任务
- 查询团队标注验收任务报告
- 更新团队标注验收任务状态
- 查询团队标注任务统计信息
- 查询团队标注任务成员的进度信息
- 团队成员查询团队标注任务列表
- 提交验收任务的样本评审意见
- 团队标注审核
- 批量更新团队标注样本的标签
- 查询标注团队列表
- 创建标注团队
- 查询标注团队详情
- 更新标注团队
- 删除标注团队
- 向标注成员发送邮件
- 查询所有团队的标注成员列表
- 查询标注团队的成员列表
- 创建标注团队的成员
- 批量删除标注团队成员
- 查询标注团队成员详情
- 更新标注团队成员
- 删除标注团队成员
- 查询数据集导入任务列表
- 创建导入任务
- 查询数据集导入任务的详情
- 查询数据集导出任务列表
- 创建数据集导出任务
- 查询数据集导出任务的状态
- 同步数据集
- 查询数据集同步任务的状态
- 查询智能标注的样本列表
- 查询单个智能标注样本的信息
- 分页查询智能任务列表
- 启动智能任务
- 获取智能任务的信息
- 停止智能任务
- 查询处理任务列表
- 创建处理任务
- 查询数据处理的算法类别
- 查询处理任务详情
- 更新处理任务
- 删除处理任务
- 查询数据处理任务的版本列表
- 创建数据处理任务版本
- 查询数据处理任务的版本详情
- 删除数据处理任务的版本
- 查询数据处理任务版本的结果展示
- 停止数据处理任务的版本
- 开发环境(旧版)
- 训练管理(旧版)
-
数据管理(旧版)
- SDK参考
- 场景代码示例
-
故障排除
- 通用问题
- 自动学习
-
开发环境
- 环境配置故障
- 实例故障
- 代码运行故障
- JupyterLab插件故障
-
VS Code连接开发环境失败故障处理
- 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口
- 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接
- VS Code连接开发环境失败时的排查方法
- 远程连接出现弹窗报错:Could not establish connection to xxx
- 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决?
- 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决?
- 远程连接处于retry状态如何解决?
- 报错“The VS Code Server failed to start”如何解决?
- 报错“Permissions for 'x:/xxx.pem' are too open”如何解决?
- 报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决?
- 报错“Connection permission denied (publickey)”如何解决
- 报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决?
- 报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决?
- 报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决?
- 报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决?
- 报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决?
- 报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决?
- 报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决?
- VS Code连接远端Notebook时报错“XHR failed”
- VS Code连接后长时间未操作,连接自动断开
- VS Code自动升级后,导致远程连接时间过长
- 使用SSH连接,报错“Connection reset”如何解决?
- 使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决?
- VS Code连接开发环境时报错Missing GLIBC,Missing required dependencies
- 使用VSCode-huawei,报错:卸载了‘ms-vscode-remote.remot-sdh’,它被报告存在问题
- 使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配
- VSCode远程连接时卡顿,或Python调试插件无法使用如何处理?
-
自定义镜像故障
- Notebook自定义镜像故障基础排查
- 镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False,Error response from daemon,Cannot pause container xxx”如何解决?
- 镜像保存时报错“container size %dG is greater than threshold %dG”如何解决?
- 保存镜像时报错“too many layers in your image”如何解决?
- 镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决?
- 镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.”
- 使用自定义镜像创建Notebook后打开没有kernel
- 用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决?
- 用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found)
- 用户使用torch报错Unexpected error from cudaGetDeviceCount
- 其他故障
-
训练作业
- OBS操作相关故障
-
云上迁移适配故障
- 无法导入模块
- 训练作业日志中提示“No module named .*”
- 如何安装第三方包,安装报错的处理方法
- 下载代码目录失败
- 训练作业日志中提示“No such file or directory”
- 训练过程中无法找到so文件
- ModelArts训练作业无法解析参数,日志报错
- 训练输出路径被其他作业使用
- PyTorch1.0引擎提示“RuntimeError: std:exception”
- MindSpore日志提示“ retCode=0x91, [the model stream execute failed]”
- 使用moxing适配OBS路径,pandas读取文件报错
- 日志提示“Please upgrade numpy to >= xxx to use this pandas version”
- 重装的包与镜像装CUDA版本不匹配
- 创建训练作业提示错误码ModelArts.2763
- 训练作业日志中提示 “AttributeError: module '***' has no attribute '***'”
- 系统容器异常退出
- 硬盘限制故障
- 外网访问限制
- 权限问题
- GPU相关问题
-
业务代码问题
- 日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields”
- 日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0”
- 训练作业失败,返回错误码139
- 训练作业失败,如何使用开发环境调试训练代码?
- 日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key”
- 日志报错“DataFrame.dtypes for data must be int, float or bool”
- 日志提示“CUDNN_STATUS_NOT_SUPPORTED. ”
- 日志提示“Out of bounds nanosecond timestamp”
- 日志提示“Unexpected keyword argument passed to optimizer”
- 日志提示“no socket interface found”
- 日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP”
- 日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'”
- 日志提示“No module name 'unidecode'”
- 分布式Tensorflow无法使用“tf.variable”
- MXNet创建kvstore时程序被阻塞,无报错
- 日志出现ECC错误,导致训练作业失败
- 超过最大递归深度导致训练作业失败
- 使用预置算法训练时,训练失败,报“bndbox”错误
- 训练作业进程异常退出
- 训练作业进程被kill
- 预置算法运行故障
- 训练作业运行失败
- 专属资源池创建训练作业
- 训练作业性能问题
- Ascend相关问题
-
推理部署
-
模型管理
- 创建模型失败,如何定位和处理问题?
- 导入模型提示该账号受限或者没有操作权限
- 用户创建模型时构建镜像或导入文件失败
- 创建模型时,OBS文件目录对应镜像里面的目录结构是什么样的?
- 通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志
- 通过OBS创建模型时,构建日志中提示pip下载包失败
- 通过自定义镜像创建模型失败
- 导入模型后部署服务,提示磁盘不足
- 创建模型成功后,部署服务报错,如何排查代码问题
- 自定义镜像导入配置运行时依赖无效
- 通过API接口查询模型详情,model_name返回值出现乱码
- 导入模型提示模型或镜像大小超过限制
- 导入模型提示单个模型文件超过5G限制
- 订阅的模型一直处于等待同步状态
- 创建模型失败,提示模型镜像构建任务超时,没有构建日志
-
服务部署
- 自定义镜像模型部署为在线服务时出现异常
- 部署的在线服务状态为告警
- 服务启动失败
- 服务部署、启动、升级和修改时,拉取镜像失败如何处理?
- 服务部署、启动、升级和修改时,镜像不断重启如何处理?
- 服务部署、启动、升级和修改时,容器健康检查失败如何处理?
- 服务部署、启动、升级和修改时,资源不足如何处理?
- 模型使用CV2包部署在线服务报错
- 服务状态一直处于“部署中”
- 服务启动后,状态断断续续处于“告警中”
- 服务部署失败,报错No Module named XXX
- IEF节点边缘服务部署失败
- 批量服务输入/输出obs目录不存在或者权限不足
- 部署在线服务出现报错No CUDA runtime is found
- 使用AI市场物体检测YOLOv3_Darknet53算法训练后部署在线服务报错
- 使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments
- 内存不足如何处理?
- 服务预测
-
模型管理
- MoXing
- API/SDK
- 资源池
-
Lite Server
- GPU裸金属服务器使用EulerOS内核误升级如何解决
- GPU A系列裸金属服务器无法获取显卡如何解决
- GPU裸金属服务器无法Ping通如何解决
- GPU A系列裸金属服务器RoCE带宽不足如何解决?
- GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML
- 训练速度突然下降以及执行nvidia-smi卡顿如何解决?
- GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error
- 使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed
- 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案
- GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败
- 裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案
- Lite Cluster
-
常见问题
- 权限相关
- 存储相关
- Standard自动学习
- Standard Workflow
-
Standard数据准备
- 在ModelArts数据集中添加图片对图片大小有限制吗?
- 如何将本地标注的数据导入ModelArts?
- 在ModelArts中数据标注完成后,标注结果存储在哪里?
- 在ModelArts中如何将标注结果下载至本地?
- 在ModelArts中进行团队标注时,为什么团队成员收不到邮件?
- ModelArts团队标注的数据分配机制是什么?
- 如何将两个ModelArts数据集合并?
- 在ModelArts中同一个账户,图片展示角度不同是为什么?
- 在ModelArts中智能标注完成后新加入数据需要重新训练吗?
- 在ModelArts中如何将图片划分到验证集或者训练集?
- 在ModelArts中物体检测标注时能否自定义标签?
- ModelArts数据集新建的版本找不到怎么办?
- 如何切分ModelArts数据集?
- 如何删除ModelArts数据集中的图片?
-
Standard Notebook
- ModelArts的Notebook是否支持Keras引擎?
- 如何在ModelArts的Notebook中上传下载OBS文件?
- ModelArts的Notebook实例upload后,数据会上传到哪里?
- 在ModelArts中如何将Notebook A的数据复制到Notebook B中?
- 在ModelArts的Notebook中如何对OBS的文件重命名?
- 在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据?
- 在ModelArts的Notebook中,如何访问其他账号的OBS桶?
- 在ModelArts的Notebook中JupyterLab默认工作路径是什么?
- 如何查看ModelArts的Notebook使用的cuda版本?
- 在ModelArts的Notebook中如何获取本机外网IP?
- ModelArts的Notebook有代理吗?如何关闭?
- 在ModelArts的Notebook中内置引擎不满足使用需要时,如何自定义引擎IPython Kernel?
- 在ModelArts的Notebook中如何将git clone的py文件变为ipynb文件?
- 在ModelArts的Notebook实例重启时,数据集会丢失吗?
- 在ModelArts的Notebook的Jupyterlab可以安装插件吗?
- 在ModelArts的Notebook的CodeLab中能否使用昇腾卡进行训练?
- 如何在ModelArts的Notebook的CodeLab上安装依赖?
- 在ModelArts的Notebook中安装远端插件时不稳定要怎么办?
- 在ModelArts的Notebook中实例重新启动后要怎么连接?
- 在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办?
- 在ModelArts的Notebook中使用VS Code如何查看远端日志?
- 在ModelArts的Notebook中如何打开VS Code的配置文件settings.json?
- 在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿?
- 在ModelArts的Notebook中如何设置VS Code远端默认安装的插件?
- 在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地?
- 在ModelArts的Notebook中,如何使用昇腾多卡进行调试?
- 在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多?
- 在ModelArts的Notebook中使用MoXing时,如何进行增量训练?
- 在ModelArts的Notebook中如何查看GPU使用情况?
- 在ModelArts的Notebook中如何在代码中打印GPU使用信息?
- 在ModelArts的Notebook中JupyterLab的目录、Terminal的文件和OBS的文件之间的关系是什么?
- 如何在ModelArts的Notebook实例中使用ModelArts数据集?
- pip介绍及常用命令
- 在ModelArts的Notebook中不同规格资源/cache目录的大小是多少?
- 资源超分对在ModelArts的Notebook实例有什么影响?
- 如何在Notebook中安装外部库?
- 在ModelArts的Notebook中,访问外网速度不稳定怎么办?
-
Standard模型训练
- 在ModelArts训练得到的模型欠拟合怎么办?
- 在ModelArts中训练好后的模型如何获取?
- 在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练?
- 在ModelArts上训练模型如何配置输入输出数据?
- 在ModelArts上如何提升训练效率并减少与OBS的交互?
- 在ModelArts中使用Moxing复制数据时如何定义路径变量?
- 在ModelArts上如何创建引用第三方依赖包的训练作业?
- 在ModelArts训练时如何安装C++的依赖库?
- 在ModelArts训练作业中如何判断文件夹是否复制完毕?
- 如何在ModelArts训练作业中加载部分训练好的参数?
- ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办?
- 在ModelArts训练代码中,如何获取依赖文件所在的路径?
- 自如何获取ModelArts训练容器中的文件实际路径?
- ModelArts训练中不同规格资源“/cache”目录的大小是多少?
- ModelArts训练作业为什么存在/work和/ma-user两种超参目录?
- 如何查看ModelArts训练作业资源占用情况?
- 如何将在ModelArts中训练好的模型下载或迁移到其他账号?
-
Standard推理部署
- 如何将Keras的.h5格式的模型导入到ModelArts中?
- ModelArts导入模型时,如何编写模型配置文件中的安装包依赖参数?
- 在ModelArts中使用自定义镜像创建在线服务,如何修改端口?
- ModelArts平台是否支持多模型导入?
- 在ModelArts中导入模型对于镜像大小有什么限制?
- ModelArts在线服务和批量服务有什么区别?
- ModelArts在线服务和边缘服务有什么区别?
- 在ModelArts中部署模型时,为什么无法选择Ascend Snt3资源?
- ModelArts线上训练得到的模型是否支持离线部署在本地?
- ModelArts在线服务预测请求体大小限制是多少?
- ModelArts部署在线服务时,如何避免自定义预测脚本python依赖包出现冲突?
- ModelArts在线服务预测时,如何提高预测速度?
- 在ModelArts中调整模型后,部署新版本模型能否保持原API接口不变?
- ModelArts在线服务的API接口组成规则是什么?
- ModelArts在线服务处于运行中时,如何填写request header和request body?
-
Standard镜像相关
- 不在同一个主账号下,如何使用他人的自定义镜像创建Notebook?
- 如何登录并上传镜像到SWR?
- 在Dockerfile中如何给镜像设置环境变量?
- 如何通过docker镜像启动容器?
- 如何在ModelArts的Notebook中配置Conda源?
- ModelArts的自定义镜像软件版本匹配有哪些注意事项?
- 镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么?
- 如何保证自定义镜像能不因为超过35G而保存失败?
- 如何减小本地或ECS构建镜像的目的镜像的大小?
- 镜像过大,卸载原来的包重新打包镜像,最终镜像会变小吗?
- 在ModelArts镜像管理注册镜像报错ModelArts.6787怎么处理?
- 用户如何设置默认的kernel?
- Standard专属资源池
- Studio
- Edge
- API/SDK
- Lite Server
- Lite Cluster
- 历史文档待下线
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
在MaaS中创建模型
在ModelArts Studio大模型即服务平台使用基础模型创建个人专属模型。
场景描述
MaaS提供了基于昇腾云算力适配的开源大模型,您可以使用这些基础模型,结合推荐的模型权重文件或自定义的模型权重文件,创建个人专属的模型。
创建成功的模型可以在ModelArts Studio大模型即服务平台进行调优、压缩、推理等操作。
约束限制
- 用于生成专属模型的模型权重文件需要满足Hugging Face上的对应模型的文件格式要求。
- 模型权重文件夹下包括权重类文件、词表类文件和配置类文件。
- 可以使用transformers的from_pretrained方法对模型权重文件夹进行加载。
具体请参见Hugging Face官方文档Documentations。
- 当选择ChatGLM3-6B、GLM-4-9B、Qwen-7B、Qwen-14B、Qwen-72B、Baichuan2-7B、Baichuan2-13B、Llama2-7B、Llama2-13B和Llama2-80B基础模型(名字必须一致)创建模型,且“权重设置与词表”选择“自定义权重”时,需要修改权重配置才能正常运行模型,操作步骤请参见修改权重配置。
前提条件
已准备好用于生成专属模型的模型权重文件,并存放于OBS桶中,OBS桶必须和MaaS服务在同一个Region下。
修改权重配置
当选择ChatGLM3-6B、GLM-4-9B、Qwen-7B、Qwen-14B、Qwen-72B、Baichuan2-7B、Baichuan2-13B、Llama2-7B、Llama2-13B和Llama2-80B基础模型(名字必须一致)创建模型,且“权重设置与词表”选择“自定义权重”时,需要修改权重配置才能正常运行模型。
![](https://support.huaweicloud.com/usermanual-maas-modelarts/public_sys-resources/note_3.0-zh-cn.png)
修改后的权重文件要更新至OBS桶中。
- ChatGLM3-6B、GLM-4-9B
修改文件“tokenization_chatglm.py”。
- 第一处
# Load from model defaults assert self.padding_side == "left"
修改为
# Load from model defaults # assert self.padding_side == "left"
- 第二处
if needs_to_be_padded: difference = max_length - len(required_input) if "attention_mask" in encoded_inputs: encoded_inputs["attention_mask"] = [0] * difference + encoded_inputs["attention_mask"] if "position_ids" in encoded_inputs: encoded_inputs["position_ids"] = [0] * difference + encoded_inputs["position_ids"] encoded_inputs[self.model_input_names[0]] = [self.pad_token_id] * difference + required_input
修改为
if needs_to_be_padded: difference = max_length - len(required_input) if "attention_mask" in encoded_inputs: encoded_inputs["attention_mask"] = encoded_inputs["attention_mask"] + [0] * difference if "position_ids" in encoded_inputs: encoded_inputs["position_ids"] = encoded_inputs["position_ids"] + [0] * difference encoded_inputs[self.model_input_names[0]] = required_input + [self.pad_token_id] * difference
- 第一处
- Qwen-7B、Qwen-14B和Qwen-72B
- 第一处,修改文件“modeling_qwen.py”。
原内容
SUPPORT_BF16 = SUPPORT_CUDA and torch.cuda.is_bf16_supported() SUPPORT_FP16 = SUPPORT_CUDA and torch.cuda.get_device_capability(0)[0] >= 7
修改为
SUPPORT_BF16 = SUPPORT_CUDA and True SUPPORT_FP16 = SUPPORT_CUDA and True
- 第二处,修改文件“tokenizer_config.json”。
在文件中增加内容
chat_template = {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}{% if add_generation_prompt and messages[-1]['role'] != 'assistant' %}{{ '<|im_start|>assistant\n' }}{% endif %}
- 第一处,修改文件“modeling_qwen.py”。
- Baichuan2-7B和Baichuan2-13B
在文件“tokenizer_config.json”中增加如下内容。
chat_template = {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}{% if add_generation_prompt and messages[-1]['role'] != 'assistant' %}{{ '<|im_start|>assistant\n' }}{% endif %}
- Llama2-7B、Llama2-13B和Llama2-80B
在文件“tokenizer_config.json”中增加如下内容。
chat_template = {% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% set system_message = false %}{% endif %}{% for message in loop_messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if loop.index0 == 0 and system_message != false %}{% set content = '<<SYS>>\\n' + system_message + '\\n<</SYS>>\\n\\n' + message['content'] %}{% else %}{% set content = message['content'] %}{% endif %}{% if message['role'] == 'user' %}{{ bos_token + '[INST] ' + content.strip() + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ ' ' + content.strip() + ' ' + eos_token }}{% endif %}{% endfor %}
创建我的模型
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
- 在ModelArts Studio左侧导航栏中,单击“我的模型”进入模型列表,单击“创建模型”弹出创建模型页面。
- 在“创建模型”页面,配置参数。
表1 创建模型 参数
说明
来源模型
单击“选择基础模型”,在弹窗中选择模型,单击“确定”。
关于模型的详细介绍,请参见表2。
模型名称
自定义模型名称。
支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、下划线(_)、中划线(-)和(.)。
描述
模型简介。支持100字符。
权重设置与词表
默认选择“使用推荐权重”,支持选择“自定义权重”。
- “使用推荐权重”:使用平台推荐的权重文件,可提高模型的训练、压缩、部署和调优等服务的使用效率。
- “自定义权重”:使用用户自定义的权重文件,需要先将权重文件上传至OBS桶中。且权重文件必须满足对应模型的文件格式要求,详情请参见约束限制。
权重文件指的是模型的参数集合。
说明:百川和Llama系列模型只支持自定义权重。
自定义权重存储路径
当“权重设置与词表”选择“自定义权重”时,需要选择存放模型权重文件的OBS路径,必须选择到模型文件夹。单次上传本地文件到OBS的总大小不能超过5GB,详情请参见如何上传超过5GB的大对象。
权重校验
当“权重设置与词表”选择“自定义权重”时,需要选择是否开启权重文件校验。默认是开启的。
- 当开启权重校验时,平台会对OBS中的权重文件进行校验,确认其是否满足规范。权限校验常见的失败情况及其处理建议请参见权重校验。
- 当关闭权重校验时,则不进行校验,创建模型可能会因为权重文件不合规而失败。
表2 模型介绍 模型系列
模型类型
应用场景
支持语言
GLM-4
文本生成
对话问答、长文本推理、代码生成
中文、英文
ChatGLM3
文本生成
对话问答、数学推理、代码生成
中文、英文
百川2
文本生成
对话问答、数学推理、代码生成、翻译
中文、英文
Llama2
文本生成
对话问答、智能创作、文本摘要
英文
Llama3
文本生成
对话问答、智能创作、文本摘要
英文
Llama3.1
文本生成
对话问答、智能创作、文本摘要
英文
Yi
文本生成
代码生成、数学推理、对话问答
中文、英文
通义千问1.5
文本生成
代码生成、数学推理、对话问答
英文
通义千问
文本生成
对话问答、智能创作、文本摘要、翻译、代码生成、数学推理
中文、英文
通义千问2
文本生成
多语言处理、数学推理、对话问答
英文
通义千问2.5
文本生成
多语言处理、数学推理、对话问答
中文、英文
DeepseekCoder
文本生成
对话问答、文本推理
中文、英文
通义千问2-VL
图像理解
图像理解、对话问答
中文、英文
DeepSeek-R1
文本生成
对话问答、文本生成推理
中文、英文
DeepSeek-V3
文本生成
对话问答、翻译
中文、英文
- 参数配置完成后,单击“创建”,创建自定义模型。
在模型列表,当模型“状态”变成“创建成功”时,表示模型创建完成。
新增模型版本
为了提升模型的可追溯性和优化效率,MaaS提供了模型版本管理功能。通过此功能,您能够创建模型的新版本。
![](https://support.huaweicloud.com/usermanual-maas-modelarts/public_sys-resources/note_3.0-zh-cn.png)
一个模型最多支持创建10个版本。
- 在ModelArts Studio左侧导航栏中,单击“我的模型”进入模型列表。
- 单击模型名称,进入模型详情页面。
- 在“我的版本”区域,单击“新增版本”。
- 在“新增版本”页面,配置模型新版本的参数。
表3 新增模型版本 参数
说明
新版本号
系统自动编号,不可修改。
版本描述
模型简介。支持100字符。
选择基础模型版本
选择基础模型的版本。
选择权重路径
选择存放模型权重文件的OBS路径,必须选择到模型文件夹。
权重校验
需要选择是否开启权重文件校验。默认是开启的。
- 当开启权重校验时,平台会对OBS中的权重文件进行校验,确认其是否满足规范。权限校验常见的失败情况及其处理建议请参见权重校验。
- 当关闭权重校验时,则不进行校验,创建模型可能会因为权重文件不合规而失败。
- 配置完成后,单击“确定”,新增模型版本。
在版本列表,当“状态”变成“创建成功”时,表示模型新版本创建完成。
查看我的模型详情
- 在ModelArts Studio左侧导航栏中,单击“我的模型”进入模型列表。
- 单击模型名称,进入模型详情页面,可以查看模型“基本信息”和“我的版本”。
- 基本信息:可以查看模型名称、ID、来源模型等信息。
- 我的版本:单击版本号进入模型详情页,可以查看各个模型版本的详细信息和任务。
删除我的模型
![](https://support.huaweicloud.com/usermanual-maas-modelarts/public_sys-resources/note_3.0-zh-cn.png)
删除操作无法恢复,请谨慎操作。
- 在ModelArts Studio左侧导航栏中,选择“我的模型”进入模型列表。
- 在模型列表,单击模型名称,进入模型详情页面。
- 在“我的版本”区域,单击版本号,进入版本详情页面。查看该版本的模型“任务记录”是否为空。
- 是,表示模型未被用于训推任务,可以直接删除。则直接执行下一步。
- 否,表示模型已被用于训推任务,需要先删除所有任务,再执行下一步。
- 确认该模型的各个版本的“任务记录”都为空。
当模型存在任务记录会删除失败。
- 在模型详情页,单击右上角的“删除”,在弹窗中输入“DELETE”,单击“确定”,删除模型。
权重校验
创建模型时,开启权重校验后,平台会自动创建一个权重校验的任务。在模型版本详情页面的“任务记录”区域,可以查看权重校验任务。
![](https://support.huaweicloud.com/usermanual-maas-modelarts/figure/zh-cn_image_0000002148834641.png)
当状态显示运行失败时,鼠标悬停在状态即可查看失败信息,根据失败信息处理问题。常见的权重校验失败信息及其处理建议请参见表4。
失败信息 |
信息解释 |
处理建议 |
---|---|---|
Unknown error, please contact the operation and maintenance personnel or check the log to locate the specific problem. |
未知错误。 |
查看日志定位处理问题,或者联系技术支持。 |
Backend model template selection error (metadata error). |
后台模型模板选择错误。 |
查看日志定位处理问题,或者联系技术支持。 |
Failed to read standard config.json in the background. |
后台读取标准config.json失败。 |
查看日志定位处理问题,或者联系技术支持。 |
Failed to read generation_config.json. |
generation_config.json内容格式错误。 |
检查“generation_config.json”文件中的内容是否为json格式。 |
The value of do_sample is not set to true in generation_config.json, which is inconsistent with the configured sampling parameters such as temperature, top_p, top_k etc. |
在generation_config.json中没有将do_sample的值设置为true,与配置的temperature、top_p、top_k等采样参数矛盾。 |
将“generation_config.json”文件中的“do_sample”的值设置为“true”。 |
Failed to read user config.json. |
config.json不存在或内容不符合json格式。 |
检查“config.json”文件是否存在,或者是内容是否为json格式。 |
The quantization_config field is missing in config.json, please check whether it is awq quantization weight. |
config.json中缺少quantization_config字段,请检查是否为awq量化权重。 |
检查权重和模型模板是否匹配。 |
There is an extra quantization_config field in config.json. Please check whether it is a non-quantized weight. |
config.json中多出quantization_config字段,请检查是否为非量化权重。 |
检查权重和模型模板是否匹配。 |
Key fields describing the model structure are missing from config.json, or their values are inconsistent with standard open source. |
config.json中缺少描述模型结构的关键字段,或其值与标准开源不一致。 |
检查“config.json”文件中的配置是否与模型官方一致。 |
Error loading tokenizer in transformers. |
transformers加载tokenizer出错。 |
检查词表文件是否正确。 |
Error loading weights in transformers. |
transformers加载权重出错。 |
检查权重文件是否正确。 |