全部文档
AI开发平台ModelArts
AI开发平台ModelArts
最新动态
功能总览
服务公告
【下线公告】华为云ModelArts服务旧版训练管理下线公告
产品介绍
图解ModelArts
初识ModelArts
初识Workflow
什么是ModelArts
功能介绍
基础知识
AI开发基本流程介绍
AI开发基本概念
ModelArts中常用概念
数据管理
开发环境
模型训练
模型部署
自动学习
ModelArts支持的AI框架
与其他服务的关系
如何访问ModelArts
计费说明
计费概述
计费项
计费模式
变更配置
续费
欠费与到期
权限管理
安全
责任共担
资产识别与管理
身份认证与访问控制
数据保护技术
审计与日志
服务韧性
监控安全风险
故障恢复
更新管理
认证证书
安全边界
配额说明
版本说明
漏洞修复说明
其他说明
计费说明
计费模式
计费模式概述
包年/包月
按需计费
套餐包
计费项
自动学习/Workflow计费项
数据管理计费项
开发环境计费项
模型训练计费项
AI应用计费项
推理部署计费项
专属资源池计费项
计费样例
续费
续费概述
手动续费
费用账单
欠费说明
停止计费
成本管理
计费FAQ
如何查看ModelArts中正在收费的作业?
如何查看ModelArts消费详情?
如果不再使用ModelArts,如何停止收费?
ModelArts上传数据集收费吗?
ModelArts标注完样本集后,如何保证退出后不再产生计费?
ModelArts自动学习所创建项目一直在扣费,如何停止计费?
训练作业如何收费?
为什么项目删除完了,仍然还在计费?
欠费后,ModelArts的资源是否会被删除?
部署后的AI应用是如何收费的?
Notebook中的EVS存储可以使用套餐包吗?
如何查看在哪个区域购买的套餐包?
已购买的套餐包为什么不能使用?
套餐包续费后为什么没有扣减?
视频帮助
准备工作
注册华为账号并开通华为云
登录ModelArts管理控制台
配置访问授权(全局配置)
创建OBS桶
开通ModelArts资源
ModelArts资源简介
免费体验
概述
免费体验Workflow
免费体验自动学习
免费体验CodeLab
免费体验AI全流程开发
按需付费使用
购买套餐包
常见问题
快速入门
ModelArts使用简介
免费体验:一键完成商超商品识别模型部署
垃圾分类(使用新版自动学习实现图像分类)
使用自定义算法构建模型(手写数字识别)
入门实践
最佳实践
官方案例列表
第三方案例列表
LLM
开源大模型基于ModelArts的一键推理部署
LLaMA系列模型基于ModelArts的全参数微调训练
LLama2-13B(PyTorch)基于DevServer训练推理指导
场景介绍
准备工作
准备环境
准备代码
准备数据
准备镜像
预训练
预训练数据处理
预训练超参配置
预训练任务
断点续训练
查看日志和性能
微调训练
增量预训练
数据处理
增量预训练权重转换
增量预训练超参配置
增量预训练任务
查看性能
LoRA微调训练
数据处理
LoRA微调权重转换
LoRA微调超参配置
LoRA微调任务
查看性能
推理前的权重合并转换
权重合并和转换介绍
预训练权重合并及转换
LoRA微调权重合并及转换
推理部署(ATB)
推理场景说明
推理服务部署
推理性能测试
benchmark方法介绍
静态benchmark
动态benchmark
推理精度测试
常见问题
访问目录时提示Permission denied
如何安装依赖包
Baichuan-13B(PyTorch)vLLM基于DevServer推理部署
场景介绍
安装推理容器环境
启动vLLM服务器服务
启动OpenAI服务器服务
推理性能测试
推理精度测试
安装精度测试工具
推理评测
附录
评测脚本vllm_api.py
AIGC
SDXL文生图ComfyUI插件适配NPU指导
场景介绍
准备环境
启动服务
服务调用
SDXL PyTorch文生图Diffusers框架适配NPU指导
场景介绍
准备环境
准备代码
运行和验证
附录:Dockerfile
SDXL PyTorch文生图WebUI适配NPU指导
场景介绍
准备环境
准备代码
运行和验证
AIGC工具tailor使用指导
数字人
Wav2Lip PyTorch适配NPU指导
场景介绍
准备环境
代码适配
Wav2Lip训练
常见问题
业务迁移
LLM训练业务昇腾迁移指导
场景介绍
环境准备
迁移适配
精度对齐
性能调优
常见问题
报错提示“RuntimeError: Default process group has not been initialized, please make sure to call init_process_group.”
训练运行报错AttributeError: 'torch_npu._C._NPUDeviceProperties' object has no attribute 'multi_processor_count'
deepspeed多卡训练报错TypeError: deepspeed_init() got an unexpected keyword argument 'resume_from_checkpoint'
Huggingface缓存目录空间不足,出现OSError: [Errno 122] Disk quota exceeded:
调用transformers出现ImportError: Using the `Trainer` with `PyTorch` requires `accelerate`: Run `pip install --upgrade accelerate`
调用transformers出现ImportError: libcblas.so.3: cannot open shared object file: No such file or directory
transformers调用cuda上的操作,或者执行卡死
训练业务昇腾迁移通用指导
简介
昇腾迁移快速入门案例
环境准备
训练业务代码适配昇腾PyTorch代码适配
PyTorch迁移精度调优
PyTorch迁移性能调优
性能调优总体原则和思路
性能调优五板斧
训练profiling工具使用
优化算子下发
优化算子执行
训练网络迁移总结
常见问题
AIGC推理业务昇腾迁移指导
场景介绍
迁移环境准备
pipeline应用准备
应用迁移
模型适配
pipeline代码适配
迁移效果校验
模型精度调优
场景介绍
精度问题诊断
精度问题处理
性能调优
单模型性能测试工具Mindspore lite benchmark
单模型性能调优AOE
常见问题
模型转换失败怎么办?
图片大Shape性能劣化严重怎么办?
同样功能的PyTorch Pipeline,因为指导要求适配onnx pipeline,两个pipeline本身功能就有差别,如何适配?
AOE的自动性能调优使用上完全没有效果怎么办?
迁移后应用出图效果相比GPU无法对齐怎么办
模型精度有问题怎么办?
模型转换失败时如何查看日志和定位原因?
Stable Diffusion WebUI如何适配?
LoRA适配流是怎么样的?
数据类型不匹配问题如何处理?
推理业务昇腾迁移通用指导
简介
昇腾迁移快速入门案例
迁移评估
环境准备
模型适配
基于MindSpore Lite的模型转换
动态shape
精度校验
性能调优
迁移过程使用工具概览
常见问题
MindSpore Lite问题定位指南
模型转换报错如何查看日志和定位?
日志提示”Compile graph failed.”
日志提示“Custom op has no reg_op_name attr.”
附录
推理业务迁移评估表
权限管理
ModelArts权限管理基本概念
权限控制方式
IAM
委托和依赖
工作空间
典型场景配置实践
个人用户快速配置ModelArts访问权限
配置ModelArts基本使用权限
场景描述
Step1 创建用户组并加入用户
Step2 为用户配置云服务使用权限
Step3 为用户配置ModelArts的委托访问授权
Step4 测试用户权限
给子用户配置开发环境基本使用权限
给子用户配置训练作业基本使用权限
给子用户配置部署上线基本使用权限
管理员和开发者权限分离
查看所有子账号的Notebook实例
使用CloudShell登录训练容器
限制用户使用公共资源池
给子用户配置文件夹级的SFS Turbo访问权限
FAQ
使用ModelArts时提示“权限不足”,如何解决?
自动学习
口罩检测(使用新版自动学习实现物体检测应用)
垃圾分类(使用新版自动学习实现图像分类)
开发环境
使用算法套件快速完成水表读数识别
基于SFS创建、迁移和管理Conda虚拟环境
本地开发的MindSpore模型迁移至云上训练
使用ModelArts VS Code插件进行模型开发(Ascend)
方案概述
资源规划
操作步骤
模型训练
使用AI Gallery的订阅算法实现花卉识别
使用自定义算法构建模型(手写数字识别)
示例:从 0 到 1 制作自定义镜像并用于训练(Pytorch+CPU/GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(MPI+CPU/GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(Horovod-PyTorch+GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(Tensorflow+GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend)
场景描述
Step1 创建OBS桶和文件夹
Step2 准备脚本文件并上传至OBS中
Step3 制作自定义镜像
Step4 上传镜像至SWR
Step5 在ModelArts上创建Notebook并调试
Step6 在ModelArts上创建训练作业
推理部署
免费体验:一键完成商超商品识别模型部署
从0-1制作自定义镜像并创建AI应用
推理服务访问公网
推理服务端到端运维
使用自定义引擎创建AI应用
使用大模型创建AI应用部署在线服务
TFServing框架迁移到推理自定义引擎
推理服务支持虚拟私有云(VPC)直连的高速访问通道
WebSocket在线服务全流程开发
专属资源池训练
资源选择推荐
步骤总览
资源购买
基本配置
权限配置
配置IAM权限
配置ModelArts委托权限
配置SWR组织权限
测试用户权限
创建网络
专属资源池VPC打通
ECS服务器挂载SFS Turbo存储
在ECS中创建ma-user和ma-group
obsutil安装和配置
(可选)工作空间配置
调试与训练
单机单卡
线下容器镜像构建及调试
上传镜像
上传数据和算法至OBS(首次使用时需要)
使用Notebook进行代码调试
创建训练任务
监控资源
单机多卡
线下容器镜像构建及调试
上传镜像
上传数据和算法至SFS(首次使用时需要)
使用Notebook进行代码调试
创建训练任务
多机多卡
线下容器镜像构建及调试
上传镜像
上传数据至OBS(首次使用时需要)
上传算法至SFS
使用Notebook进行代码调试
创建训练任务
FAQ
CUDA和CUDNN
V100 GPU机型软件版本建议
CUDA Compatibility如何使用?
专属池驱动版本如何升级?
CloudShell调试方法
run.sh脚本测试ModelArts训练整体流程
ModelArts环境挂载目录说明
如何查看训练环境变量
infiniband驱动的安装
Tensorboard的使用
如何保证训练和调试时文件路径保持一致
ModelArts+HiLens
手势识别技能开发(ModelArts+华为HiLens)
自动学习
自动学习(旧版)
自动学习简介
图像分类
准备数据
创建项目
数据标注
模型训练
部署上线
物体检测
准备数据
创建项目
数据标注
模型训练
部署上线
预测分析
准备数据
创建项目
选择标签列
模型训练
部署上线
声音分类
准备数据
创建项目
数据标注
模型训练
部署上线
文本分类
准备数据
创建项目
数据标注
模型训练
部署上线
使用窍门
创建项目时,如何快速创建OBS桶及文件夹?
增加的数据,如何在自动学习项目中查看?
自动学习项目中,如何进行增量训练?
自动学习生成的模型,存储在哪里?支持哪些其他操作?
将旧版项目升级到新版
修订记录
自动学习(新版)
自动学习简介
图像分类
准备数据
创建项目
数据标注
模型训练
部署上线
物体检测
准备数据
创建项目
数据标注
模型训练
部署上线
预测分析
准备数据
创建项目
选择标签列
模型训练
部署上线
声音分类
准备数据
创建项目
数据标注
模型训练
部署上线
文本分类
准备数据
创建项目
数据标注
模型训练
部署上线
使用窍门
创建项目时,如何快速创建OBS桶及文件夹?
自动学习生成的模型,存储在哪里?支持哪些其他操作?
修订记录
Workflow
MLOps简介
什么是Workflow
入门教程
运行第一条Workflow
开发第一条Workfolw
安装开发环境
Notebook-JupyterLab
本地IDE连接Notebook
安装包完整性校验
准备数据
编写Workflow
调试Workflow
发布运行态
发布运行态并执行
发布gallery
清除资源
如何使用Workflow
Workflow的配置
配置的入口
运行配置
资源配置
标签配置
消息通知
输入与输出配置
节点参数配置
保存配置
启动/停止/查找/复制/删除Workflow
查看Workflow运行记录
重试/停止/继续运行节点
部分运行
如何开发Workflow
核心概念
Workflow
Step
Data
开发态
运行态
参数配置
功能介绍
属性总览
使用案例
统一存储
功能介绍
常用方式
进阶用法
使用案例
相关配置操作
节点类型
数据集创建节点
功能介绍
属性总览
使用案例
数据集标注节点
功能介绍
属性总览
使用案例
数据集导入节点
功能介绍
属性总览
使用案例
数据集版本发布节点
功能介绍
属性总览
使用案例
作业类型节点
功能介绍
属性总览
资源规格查询
使用案例
模型注册节点
功能介绍
属性总览
使用案例
服务部署节点
功能介绍
属性总览
使用案例
相关配置操作
条件节点
功能介绍
属性总览
使用案例
分支控制
多输入支持数据选择
编写Workflow
调试Workflow
发布Workflow
发布运行态
发布到AI Gallery
端到端场景案例介绍
机器学习端到端场景
服务更新场景
高阶能力
部分运行
在Workflow中使用大数据能力(DLI/MRS)
常见问题
开发态调试时,如何查询训练规格?
如何实现多分支?
如何使用节点可视化能力?
如何导入对象?
如何定位运行报错?
开发环境
开发环境介绍
使用场景
管理Notebook实例
创建Notebook实例
打开Notebook实例
查找/启动/停止/删除实例
变更Notebook实例镜像
变更Notebook实例运行规格
开发环境中如何选择存储
动态挂载OBS并行文件系统
动态扩充云硬盘EVS容量
修改Notebook SSH远程连接配置
查看所有子账号的Notebook实例
查看Notebook实例事件
Notebook cache盘告警上报
CodeLab
JupyterLab
JupyterLab操作流程
JupyterLab简介及常用操作
代码参数化插件
使用ModelArts SDK
使用Git插件
可视化训练作业
可视化训练作业介绍
MindInsight可视化作业
TensorBoard可视化作业
Notebook中的数据上传下载
上传文件至JupyterLab
场景介绍
上传本地文件至JupyterLab
上传场景和入口介绍
上传本地小文件(100MB以内)至JupyterLab
上传本地大文件(100MB~5GB)至JupyterLab
上传本地超大文件(5GB以上)至JupyterLab
GitHub开源仓库Clone
上传OBS文件到JupyterLab
上传远端文件至JupyterLab
从JupyterLab下载文件至本地
本地IDE
本地IDE操作流程
本地IDE(PyCharm)
PyCharm Toolkit插件连接Notebook
PyCharm ToolKit介绍
下载并安装ToolKit工具
PyCharm ToolKit连接Notebook
PyCharm手动连接Notebook
PyCharm Toolkit提交训练作业
提交训练作业(新版训练)
停止训练作业
查看训练日志
在PyCharm中上传数据至Notebook
本地IDE(VS Code)
VS Code连接Notebook方式介绍
安装VS Code软件
VS Code一键连接Notebook
VS Code ToolKit连接Notebook
VS Code手动连接Notebook
在VS Code中远程调试代码
在VS Code中上传下载文件
本地IDE(SSH工具连接)
ML Studio
ML Studio简介
进入ML Studio操作界面
ML Studio快速入门
背景信息
使用MLS预置算链进行机器学习建模
从0到1利用ML Studio进行机器学习建模
算子操作
查看算子
上传/下载自定义算子
编写自定义算子
自定义算子代码模板和规范
预置算子说明
数据特征
数据分析
箱型图
分桶统计
相关性分析
决策树分类特征重要性
决策树回归特征重要性
梯度提升树分类特征重要性
梯度提升树回归特征重要性
孤立森林
百分位
百分位统计
直方图
折线图
饼形图
散点图
随机森林分类特征重要性
随机森林回归特征重要性
全表统计
单样本t检验
直方图(多字段)
卡方拟合性检验
卡方独立性检验
协方差矩阵
孤立森林[PySpark版]
皮尔森系数
离散特征分析
数据处理
修改列名
数据集列合并
数据集聚合
数据集行合并
数据集行过滤
数据集连接
数据集抽样
数据集拆分
数据集行去重
执行spark sql脚本
替换
缺失值填充
缺省值填充
修改列数据类型
数据集选择列
设置元数据
数据集按列排序
增加序列号
普通表转KV表
KV表转普通表
分层采样
加权采样
特征工程
二值化
卡方选择
派生
特征转换
FP-growth
最小最大规范化
正则化
独热编码
主成分分析
离散化
标准化
字符串标签化
奇异值分解
过滤式特征选择
线性特征重要性
特征尺度变换
特征异常检测
特征异常平滑
gbdt编码模型训练
gbdt编码模型应用
输入输出
输入
读取DLI表
读取数据
读取模型
从OBS读取CSV数据
从OBS读取模型
读取parquet数据
读取文本数据
读CSV文件
输出
保存为DLI OBS表
保存数据
保存CSV数据到OBS
保存模型
保存模型到OBS
保存parquet数据
数据压缩
模型工程
分类
决策树分类
梯度提升树分类
LightGBM分类
线性支持向量机分类
逻辑回归分类
多层感知机分类
朴素贝叶斯分类
随机森林分类
FM算法
GBDT PMML模型预测
多层感知机分类(pytorch)
多层感知机预测(PyTorch)
聚类
二分k均值
高斯混合模型
k均值
评估
二分类评估
聚类评估
模型应用
多分类评估
回归评估
混淆矩阵
推荐
最小二乘法
向量召回评估
协同过滤-Item-based
swing
回归
决策树回归
梯度提升树回归
LightGBM回归
线性回归
随机森林回归
文本
TF-IDF
文本词向量
词频统计
文章相似度
字符串相似度
字符串相似度topN
NGram Count
PMI
关键词抽取
原子分词
文本TF-IDF
三元组转kv
文本分类
LDA
句子拆分
文本摘要
停用词过滤
语义相似距离
时间序列
ARIMA
Auto ARIMA
算链操作
查看算链
算链编排界面说明
算链编排操作
上传/下载算链
运行算链
常见问题
ML Studio错误码
MindStudio
使用MindStudio开发Ascend算子
算法开发套件
算法开发套件简介
准备开发环境
创建算法工程
使用算法套件快速完成水表读数识别
使用样例
使用现有模型进行推理
使用现有数据集测试现有模型
使用现有数据集训练预训练模型
使用自定义数据集进行训练
算法开发套件命令说明
列举
安装
拷贝
运行
导出
部署
部署命令
部署脚本参考
调用部署服务进行推理
删除已发布模型和在线服务
编排
查询
配置参数说明
全局参数
Runner
Converter
Exporter
Deployer
Adapter
Flow
通过Python API使用算法套件
算法工程环境管理
创建数据集
构建模型
构建学习器
本地交互式推理
ModelArts CLI命令参考
ModelArts CLI简介
(可选)本地安装ma-cli
ma-cli auto-completion自动补全命令
ma-cli configure鉴权命令
ma-cli image镜像构建命令
ma-cli image镜像构建命令概述
查询镜像构建模板
加载镜像构建模板
查询ModelArts已注册镜像
在ModelArts Notebook中进行镜像构建
在ModelArts Notebook中查询镜像构建缓存
在ModelArts Notebook中清理镜像构建缓存
注册SWR镜像到ModelArts镜像管理
取消注册ModelArts镜像管理中的已注册镜像
在ECS上调试SWR镜像是否能在ModelArts Notebook中使用
使用ma-cli ma-job命令提交ModelArts训练作业
ma-cli ma-job命令概述
查询ModelArts训练作业
提交ModelArts训练作业
查询ModelArts训练作业日志
查询ModelArts训练作业事件
查询ModelArts训练AI引擎
查询ModelArts训练资源规格
停止ModelArts训练作业
使用ma-cli dli-job命令提交DLI Spark作业
命令总览
查询DLI Spark作业
提交DLI Spark作业
查询DLI Spark运行日志
查询DLI 队列
查询DLI 分组资源
上传本地文件或OBS文件到DLI分组资源
停止DLI Spark作业
使用ma-cli拷贝OBS数据
模型训练
模型开发简介
准备数据
准备算法
准备算法简介
使用订阅算法
使用预置框架(自定义脚本)
使用预置框架简介
开发自定义脚本
创建算法
使用自定义镜像
查看算法详情
查找算法
删除算法
旧版训练迁移至新版训练注意事项
完成一次训练
创建训练作业
查看训练作业详情
查看训练作业事件
查看训练作业日志
什么是训练作业日志
普通日志说明
Ascend场景日志说明
如何查看训练作业日志
如何通过训练日志定位问题
CloudShell
使用CloudShell登录训练容器
如何训练作业保持运行中状态
如何防止CloudShell的Session断开
通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题
查看训练作业资源利用率
评估训练结果
查看训练标签
查看训练容器环境变量
停止、重建或查找作业
清除训练作业资源
训练进阶
训练模式选择
训练故障自动恢复
训练容错检查
故障临终遗言
断点续训练和增量训练
训练作业卡死检测
修改训练作业优先级
设置作业为高优先级权限
模型训练可视化
可视化训练作业介绍
MindInsight可视化作业
TensorBoard可视化作业
分布式训练
分布式训练功能介绍
单机多卡数据并行-DataParallel(DP)
多机多卡数据并行-DistributedDataParallel(DDP)
分布式调测适配及代码示例
分布式训练完整代码示例
基于训练作业启动PyTorch DDP训练示例
基于训练作业启动PyTorch DDP on Ascend加速卡训练示例
自动模型优化(AutoSearch)
超参搜索简介
搜索算法
贝叶斯优化(SMAC)
TPE算法
模拟退火算法(Anneal)
创建超参搜索作业
模型转换
模型转换操作
模型转换输入目录规范
模型转换输出目录说明
转换模板
修订记录
推理部署
推理简介
管理AI应用
管理AI应用简介
创建AI应用
从训练中选择元模型
从模板中选择元模型
从对象存储服务(OBS)中选择元模型
从容器镜像中选择元模型
查看AI应用列表
查看AI应用详情
管理AI应用
发布AI应用
查看AI应用的事件
订阅模型
从AI Gallery订阅模型
从EI云服务订阅模型(即将下线)
部署AI应用(部署上线)
部署AI应用(在线服务)
部署为在线服务
查看服务详情
测试服务
访问在线服务
访问在线服务简介
认证方式
访问在线服务(Token认证)
访问在线服务(AK/SK认证)
访问在线服务(APP认证)
访问方式
访问在线服务(公网访问通道)
访问在线服务(VPC高速访问通道)
WebSocket访问在线服务
集成在线服务
部署AI应用(批量服务)
部署为批量服务
查看批量服务预测结果
部署AI应用(边缘服务)
部署为边缘服务
访问边缘服务
升级服务
启动、停止、删除、重启服务
查看服务的事件
推理规范说明
模型包规范
模型包规范介绍
模型配置文件编写说明
模型推理代码编写说明
模型模板
模型模板简介
模板说明
TensorFlow图像分类模板
TensorFlow-py27通用模板
TensorFlow-py36通用模板
MXNet-py27通用模板
MXNet-py36通用模板
PyTorch-py27通用模板
PyTorch-py36通用模板
Caffe-CPU-py27通用模板
Caffe-GPU-py27通用模板
Caffe-CPU-py36通用模板
Caffe-GPU-py36通用模板
ARM-Ascend模板
输入输出模式说明
预置物体检测模式
预置图像处理模式
预置预测分析模式
未定义模式
自定义脚本代码示例
TensorFlow
TensorFlow 2.1
PyTorch
Caffe
XGBoost
Pyspark
Scikit Learn
云监控平台ModelArts监控
ModelArts支持的监控指标
设置告警规则
查看监控指标
修订记录
镜像管理
镜像管理
使用预置镜像
统一镜像介绍
Notebook基础镜像介绍
Notebook基础镜像功能
Notebook基础镜像列表
Notebook基础镜像x86 PyTorch
Notebook基础镜像x86 Tensorflow
Notebook基础镜像x86 MindSpore
Notebook基础镜像x86 自定义专用镜像
Notebook基础镜像ARM MindSpore
Notebook基础镜像ARM TenSorFlow
训练基础镜像详情介绍
训练基础镜像列表
训练基础镜像详情(PyTorch)
训练基础镜像详情(TensorFlow)
训练基础镜像详情(Horovod)
训练基础镜像详情(MPI)
预置框架启动流程说明
PyTorch
Tensorflow
Ascend-Powered-Engine
Horovod/MPI/MindSpore-GPU
推理基础镜像介绍
推理基础镜像列表
推理基础镜像详情TensorFlow(CPU/GPU)
推理基础镜像详情Pytorch(CPU/GPU)
推理基础镜像详情MindSpore(CPU/GPU)
Notebook中使用自定义镜像
在ModelArts中进行镜像注册
Notebook制作自定义镜像方法
将Notebook实例保存为自定义镜像
保存Notebook镜像环境
基于自定义镜像创建Notebook实例
在Notebook中构建自定义镜像并使用
使用场景和构建流程说明
Step1 制作自定义镜像
Step2 注册新镜像
Step3 创建开发环境并使用
在ECS上构建自定义镜像并在Notebook中使用
使用场景和构建流程说明
Step1 准备Docker机器并配置环境信息
Step2 制作自定义镜像
Step3 注册新镜像
Step4 创建开发环境并使用
使用自定义镜像训练模型(模型训练)
训练管理中使用自定义镜像介绍
示例:从 0 到 1 制作自定义镜像并用于训练
示例:从 0 到 1 制作自定义镜像并用于训练(Pytorch+CPU/GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(MPI+CPU/GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(Horovod-PyTorch+GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(Tensorflow+GPU)
示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend)
场景描述
Step1 创建OBS桶和文件夹
Step2 准备脚本文件并上传至OBS中
Step3 制作自定义镜像
Step4 上传镜像至SWR
Step5 在ModelArts上创建Notebook并调试
Step6 在ModelArts上创建训练作业
准备训练镜像
训练作业自定义镜像规范
已有镜像如何适配迁移至ModelArts训练平台
使用基础镜像构建新的训练镜像
在容器镜像中安装MLNX_OFED
使用自定义镜像创建算法
使用自定义镜像创建训练作业(CPU/GPU)
使用自定义镜像创建训练作业(Ascend)
自定义镜像训练作业失败定位思路
使用自定义镜像创建AI应用(推理部署)
创建AI应用的自定义镜像规范
从0-1制作自定义镜像并创建AI应用
在开发环境中构建并调试推理镜像
场景说明
Step1 在Notebook中构建一个新镜像
Step2 构建成功的镜像注册到镜像管理模块
Step3 在Notebook中变更镜像并调试
Step4 使用调试成功的镜像用于推理部署
无需构建直接在开发环境中调试并保存镜像用于推理
场景说明
Step1 在Notebook中拷贝模型包
Step2 在Notebook中调试模型
Step3 Notebook中保存镜像
Step4 使用保存成功的镜像用于推理部署
FAQ
如何登录并上传镜像到SWR
如何给镜像设置环境变量
如何通过docker启动Notebook保存后的镜像
如何在Notebook开发环境中配置Conda源
自定义镜像软件版本匹配注意事项
修订记录
资源管理
资源池介绍
弹性集群
ModelArts资源池管理功能全面升级
创建资源池
查看资源池详情
扩缩容资源池
设置续费策略
调整到期策略
工作空间迁移
修改资源池作业类型
资源池驱动升级
删除资源池
资源池异常处理
ModelArts网络
审计日志
支持云审计的关键操作
查看审计日志
资源监控
概述
使用Grafana查看AOM中的监控指标
操作流程
安装配置Grafana
在Windows上安装配置Grafana
在Linux上安装配置Grafana
在Notebook上安装配置Grafana
配置Grafana数据源
使用Grafana配置Dashboards,查看指标数据
在AOM控制台查看ModelArts所有监控指标
修订记录
ModelArts Lite用户指南
弹性集群k8s Cluster
k8s Cluster简介
k8s Cluster资源开通
不同机型的对应的软件配套版本
k8s Cluster资源开通(直接购买)
k8s Cluster资源开通(预购)
k8s Cluster资源配置
配置流程
在k8s集群配置Ascend使用环境
网络
配置外网访问(EIP)
创建相同帐户下的VPC对等连接
配置外网访问(NAT)
存储
容器中挂载存储
kubectl工具配置
容器镜像
容器镜像拉取
镜像预热
日志监控
使用ModelArts的exporter功能在Prometheus查看监控数据
使用ModelArts监控自定义指标
k8s Cluster资源使用
风险操作
在lite资源池上使用Snt9B完成分布式训练任务
在lite资源池上使用Snt9B完成推理任务
节点故障定位
FAQ
特权池信息数据显示均为0%如何解决?
弹性裸金属DevServer
DevServer简介
DevServer资源开通
开通流程
准备工作
购买Server资源
镜像介绍
GPU Ant8裸金属服务器支持的镜像详情
GPU V100裸金属服务器支持的镜像详情
NPU Snt9裸金属服务器支持的镜像详情
GPU Ant1裸金属服务器支持的镜像详情
手动续费/自动续费包周期
DevServer资源配置
使用前须知
配置流程
网络访问
单EIP实现多节点的SSH登录和外网访问
单EIP绑定裸金属服务器
裸金属服务器支持IPV6解决方案
存储
裸金属服务器存储指南
环境配置
GPU裸金属服务器环境配置
GPU V100裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7
GPU V100裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4
GPU V100裸金属服务器的Docker模式环境搭建
GPU Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 525+CUDA 12.0
GPU Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA 11.7
GPU Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 470+CUDA 11.3
GPU A系列裸金属服务器更换NVIDIA和CUDA
GPU A系列裸金属服务器RoCE性能带宽测试
NVIDIA和CUDA驱动安装指南
NPU Snt9B裸金属服务器环境配置
场景描述
物理机环境配置
容器化个人调测环境搭建
监控
CES服务监控方案
DCGM监控方案
DevServer资源使用
GPU Ant8裸金属服务器使用Megatron-Deepspeed训练GPT2并推理
FAQ
GPU A系列裸金属服务器没有任务,GPU被占用问题
GPU A系列裸金属服务器无法获取显卡问题解决方法
GPU A系列裸金属服务器RoCE带宽不足问题解决方法
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML
训练速度突然下降以及执行nvidia-smi卡顿的解决方法
如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic
如何禁止Ubuntu 20.04内核自动升级
如何设置SSH免密登录
GPU裸金属服务器使用EulerOS 内核误升级解决方案
Atlas800训练服务器硬件指南
GPU V100裸金属服务服务器用PyTorch报错CUDA initialization:CUDA unknown error
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed
GPU裸金属服务器无法Ping通的解决方案
华为云BMS GO SDK和Python脚本实现裸金属服务器的操作系统切换
使用GPU A系列裸金属服务器有哪些注意事项?
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败
GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法(Pytorch模式)
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案
API参考
使用前必读
概述
调用说明
终端节点
约束与限制
基本概念
API概览
如何调用API
构造请求
认证鉴权
返回结果
Workflow工作流管理
获取Workflow列表
新建Workflow
删除Workflow
查询Workflow
修改Workflow
总览Workflow
查询Workflow待办事项
在线服务鉴权
创建在线服务包
获取Execution列表
新建Workflow执行
删除Execution
查询Execution
更新Execution
操作Execution
操作StepExecution
获取工作流节点度量信息
新建消息订阅
删除Subscription
查询Subscription详情
更新Subscription
创建工作流定时调度
查询工作流定时调度详情
删除工作流定时调度信息
更新工作流定时调度信息
开发环境管理
创建Notebook实例
查询Notebook实例列表
查询Notebook实例详情
更新Notebook实例
删除Notebook实例
通过运行的实例保存成容器镜像
查询支持的有效规格列表
查询支持可切换规格列表
查询运行中的开发环境可用时长
Notebook时长续约
启动Notebook实例
停止Notebook实例
获取动态挂载OBS实例信息列表
动态挂载OBS
获取动态挂载OBS实例详情
动态卸载OBS
添加资源标签
删除资源标签
查询Notebook资源类型下的标签
查询支持的镜像列表
注册自定义镜像
查询用户镜像组列表
查询镜像详情
删除镜像
训练管理
创建算法
查询算法列表
查询算法详情
更新算法
删除算法
获取支持的超参搜索算法
创建训练作业
查询训练作业详情
更新训练作业描述
删除训练作业
终止训练作业
查询训练作业指定任务的日志(预览)
查询训练作业指定任务的日志(OBS链接)
查询训练作业指定任务的运行指标
查询训练作业列表
查询超参搜索所有trial的结果
查询超参搜索某个trial的结果
获取超参敏感度分析结果
获取某个超参敏感度分析图像的路径
提前终止自动化搜索作业的某个trial
获取自动化搜索作业yaml模板的信息
获取自动化搜索作业yaml模板的内容
创建训练作业标签
删除训练作业标签
查询训练作业标签
创建训练作业镜像保存任务
查询训练作业镜像保存任务
获取训练作业支持的公共规格
获取训练作业支持的AI预置框架
AI应用管理
查询模型runtime
查询AI应用列表
创建AI应用
查询AI应用详情
删除AI应用
APP认证管理
获取APP列表
创建APP
查询APP详情
删除APP
增加AppCode
重置AppCode
删除AppCode
重置AppSecret
获取用户绑定APP的api列表
注册API并授权给APP
删除API
授权API至APP
更新API授权
解除API对APP的授权
获取API授权关系列表
服务管理
通过 patch 操作对服务进行更新
查询服务监控信息
查询服务列表
部署服务
查询支持的服务部署规格
查询服务详情
更新服务配置
删除服务
查询专属资源池列表
查询服务事件日志
启动停止边缘节点服务实例
查询服务更新日志
添加资源标签
删除资源标签
查询推理服务标签
资源管理
查询OS的配置参数
查询插件模板
查询节点列表
批量删除节点
查询事件列表
创建网络资源
查询网络资源列表
查询网络资源
删除网络资源
更新网络资源
查询资源实时利用率
创建资源池
查询资源池列表
查询资源池
删除资源池
更新资源池
资源池监控
资源池统计
查询资源规格列表
查询专属资源池作业列表
查询专属资源池作业统计信息
DevServer管理
查询用户所有DevServer实例列表
创建DevServer
查询DevServer实例详情
删除DevServer实例
实时同步用户所有DevServer实例状态
启动DevServer实例
停止DevServer实例
授权管理
查看授权列表
配置授权
删除授权
创建ModelArts委托
工作空间管理
查询工作空间详情
修改工作空间
删除工作空间
查询工作空间配额
修改工作空间配额
查询工作空间列表
创建工作空间
应用示例
创建图像分类数据集并进行标注任务
创建并完成图像分类的智能标注任务
开发环境的应用示例
以PyTorch框架创建训练作业(新版训练)
创建和修改工作空间
管理ModelArts服务的委托授权
权限策略和授权项
策略及授权项说明
数据管理权限
开发环境权限(新版)
训练作业权限(新版)
模型管理权限
服务管理权限
工作空间管理权限
公共参数
状态码
错误码
获取项目ID和名称
获取帐号名和帐号ID
获取用户名和用户ID
历史API
数据管理(旧版)
查询数据集列表
创建数据集
查询数据集详情
更新数据集
删除数据集
查询数据集的统计信息
查询数据集监控数据
查询数据集的版本列表
创建数据集标注版本
查询数据集版本详情
删除数据集标注版本
查询样本列表
批量添加样本
批量删除样本
查询单个样本信息
获取样本搜索条件
分页查询团队标注任务下的样本列表
查询团队标注的样本信息
查询数据集标签列表
创建数据集标签
批量修改标签
批量删除标签
按标签名称更新单个标签
按标签名称删除标签及仅包含此标签的文件
批量更新样本标签
查询数据集的团队标注任务列表
创建团队标注任务
查询团队标注任务详情
启动团队标注任务
更新团队标注任务
删除团队标注任务
创建团队标注验收任务
查询团队标注验收任务报告
更新团队标注验收任务状态
查询团队标注任务统计信息
查询团队标注任务成员的进度信息
团队成员查询团队标注任务列表
提交验收任务的样本评审意见
团队标注审核
批量更新团队标注样本的标签
查询标注团队列表
创建标注团队
查询标注团队详情
更新标注团队
删除标注团队
向标注成员发送邮件
查询所有团队的标注成员列表
查询标注团队的成员列表
创建标注团队的成员
批量删除标注团队成员
查询标注团队成员详情
更新标注团队成员
删除标注团队成员
查询数据集导入任务列表
创建导入任务
查询数据集导入任务的详情
查询数据集导出任务列表
创建数据集导出任务
查询数据集导出任务的状态
同步数据集
查询数据集同步任务的状态
查询智能标注的样本列表
查询单个智能标注样本的信息
分页查询智能任务列表
启动智能任务
获取智能任务的信息
停止智能任务
查询处理任务列表
创建处理任务
查询数据处理的算法类别
查询处理任务详情
更新处理任务
删除处理任务
查询数据处理任务的版本列表
创建数据处理任务版本
查询数据处理任务的版本详情
删除数据处理任务的版本
查询数据处理任务版本的结果展示
停止数据处理任务的版本
开发环境(旧版)
创建开发环境实例
查询开发环境实例列表
查询开发环境实例详情
更新开发环境实例信息
删除开发环境实例
管理开发环境实例
训练管理(旧版)
训练作业
创建训练作业
查询训练作业列表
查询训练作业版本详情
删除训练作业版本
查询训练作业版本列表
创建训练作业版本
停止训练作业版本
更新训练作业描述
删除训练作业
获取训练作业日志的文件名
查询预置算法
查询训练作业日志
训练作业参数配置
创建训练作业参数
查询训练作业参数列表
更新训练作业参数
删除训练作业参数
查询训练作业参数详情
可视化作业
创建可视化作业
查询可视化作业列表
查询可视化作业详情
更新可视化作业描述
删除可视化作业
停止可视化作业
重启可视化作业
资源和引擎规格接口
查询作业资源规格
查询作业引擎规格
作业状态参考
修订记录
SDK参考
文档导读
SDK简介
快速开始
(可选)本地安装ModelArts SDK
(可选)Session鉴权
OBS管理
OBS管理概述
文件传输(推荐)
上传文件至OBS
上传文件夹至OBS
从OBS下载文件
从OBS下载文件夹
数据管理
数据集管理
查询数据集列表
创建数据集
查询数据集详情
更新数据集
删除数据集
数据集版本管理
查询数据集版本列表
创建数据集版本
查询数据集版本详情
删除数据集版本
样本管理
查询样本列表
查询单个样本详情
批量删除样本
导入任务管理
查询导入任务列表
创建导入任务
查询导入任务状态
导出任务管理
查询导出任务列表
创建导出任务
查询导出任务状态
Manifest管理
Manifest管理概述
解析Manifest文件
创建和保存Manifest文件
解析Pascal VOC文件
创建和保存Pascal VOC文件
标注任务管理
创建标注任务
查询数据集的标注任务列表
查询标注任务详情
训练管理(新版)
训练作业
创建训练作业
训练作业调测
使用SDK调测单机训练作业
使用SDK调测多机分布式训练作业
查询训练作业列表
查询训练作业详情
更新训练作业描述
删除训练作业
终止训练作业
查询训练日志
查询训练作业的运行指标
资源和引擎规格接口
查询资源规格列表
查询引擎规格列表
训练管理(旧版)
训练作业
创建训练作业
训练作业调试
查询训练作业列表
查询训练作业详情
更新训练作业描述
获取训练作业日志的文件名
查询训练作业日志
删除训练作业
训练作业版本
创建训练作业版本
查询训练作业版本列表
查询训练作业版本详情
停止训练作业版本
删除训练作业版本
训练作业参数配置
创建训练作业参数
查询训练作业参数对象列表
查询训练作业参数列表
查询训练作业参数详情
更新训练作业参数
删除训练作业参数
可视化作业
创建可视化作业
查询可视化作业对象列表
查询可视化作业列表
查询可视化作业详情
更新可视化作业描述
停止可视化作业
重启可视化作业
删除可视化作业
资源和引擎规格接口
查询预置算法
查询资源规格列表
查询引擎规格列表
作业状态参考
模型管理
模型调试
导入模型
查询模型列表
查询模型对象列表
查询模型详情
删除模型
服务管理
服务管理概述
部署本地服务进行调试
部署在线服务
查询服务详情
推理服务测试
查询服务列表
查询服务对象列表
更新服务配置
查询服务监控信息
查询服务日志
删除服务
修订记录
场景代码示例
常见问题
一般性问题
什么是ModelArts
ModelArts与其他服务的关系
ModelArts与DLS服务的区别?
如何购买或开通ModelArts?
支持哪些型号的Ascend芯片?
如何获取访问密钥?
如何上传数据至OBS?
提示“上传的AK/SK不可用”,如何解决?
使用ModelArts时提示“权限不足”,如何解决?
如何用ModelArts训练基于结构化数据的模型?
什么是区域、可用区?
在ModelArts中如何查看OBS目录下的所有文件?
ModelArts数据集保存到容器的哪里?
ModelArts支持哪些AI框架?
ModelArts训练和推理分别对应哪些功能?
MindSpore相关问题如何解决?
如何查看账号ID和IAM用户ID
ModelArts AI识别可以单独针对一个标签识别吗?
ModelArts如何通过标签实现资源分组管理
为什么资源充足还是在排队?
计费相关
如何查看ModelArts中正在收费的作业?
如何查看ModelArts消费详情?
ModelArts上传数据集收费吗?
ModelArts标注完样本集后,如何保证退出后不再产生计费?
ModelArts自动学习所创建项目一直在扣费,如何停止计费?
如果不再使用ModelArts,如何停止收费?
训练作业如何收费?
为什么项目删除完了,仍然还在计费?
欠费后,ModelArts的资源是否会被删除?
部署后的AI应用是如何收费的?
Notebook中的EVS存储可以使用套餐包吗?
自动学习(旧版)
功能咨询
什么是自动学习?
ModelArts自动学习与ModelArts PRO的区别
什么是图像分类和物体检测?
自动学习和订阅算法有什么区别?
准备数据
自动学习的每个项目对数据有哪些要求?
创建预测分析自动学习项目时,对训练数据有什么要求?
使用从OBS选择的数据创建表格数据集如何处理Schema信息?
物体检测或图像分类项目支持对哪些格式的图片进行标注和训练?
创建项目
创建自动学习项目有个数限制吗?
创建项目的时候,数据集输入位置没有可选数据?
数据标注
物体检测图片标注,一张图片是否可以添加多个标签?
在物体检测作业中上传已标注图片后,为什么部分图片显示未标注?
模型训练
创建图像分类自动学习项目并完成图片标注,训练按钮显示灰色,无法开始训练?
自动学习项目中,如何进行增量训练?
自动学习训练后的模型是否可以下载?
自动学习为什么训练失败?
自动学习模型训练图片异常?
自动学习使用子账号点击开始训练出现错误Modelarts.0010
自动学习开始训练训练偏好设置各参数训练速度大概是多少
自动学习声音分类预测报错ERROR:input key sound is not in model
部署上线
自动学习中部署上线是将模型部署为什么类型的服务?
数据管理(旧版)
添加图片时,图片大小有限制吗?
数据集图片无法显示,如何解决?
如何将多个物体检测的数据集合并成一个数据集?
导入数据集失败
表格类型的数据集如何标注
本地标注的数据,导入ModelArts需要做什么?
为什么通过Manifest文件导入失败?
标注结果存储在哪里?
如何将标注结果下载至本地?
团队标注时,为什么团队成员收不到邮件?
可以两个账号同时进行一个数据集的标注吗?
团队标注的数据分配机制是什么?
标注过程中,已经分配标注任务后,能否将一个labeler从标注任务中删除?删除后对标注结果有什么影响?如果不能删除labeler,能否删除将他的标注结果从整体标注结果中分离出来?
数据标注中,难例集如何定义?什么情况下会被识别为难例?
物体检测标注时,支持叠加框吗?
如何将两个数据集合并?
智能标注是否支持多边形标注?
团队标注的完成验收的各选项表示什么意思?
同一个账户,图片展示角度不同是为什么?
智能标注完成后新加入数据是否需要重新训练?
为什么在ModelArts数据标注平台标注数据提示标注保存失败?
标注多个标签,是否可针对一个标签进行识别?
使用数据处理的数据扩增功能后,新增图片没有自动标注
视频数据集无法显示和播放视频
使用样例的有标签的数据或者自己通过其他方式打好标签的数据放到OBS桶里,在modelarts中同步数据源以后看不到已标注,全部显示为未标注
如何使用soft NMS方法降低目标框堆叠度
Modelarts标注数据丢失,看不到标注过的图片的标签
如何将某些图片划分到验证集或者训练集?
物体检测标注时除了位置、物体名字,是否可以设置其他标签,比如是否遮挡、亮度等?
ModelArts数据管理支持哪些格式?
旧版数据集中的数据是否会被清理?
数据集版本管理找不到新建的版本
如何查看数据集大小
如何查看新版数据集的标注详情
标注数据如何导出
找不到新创建的数据集
数据集配额不正确
数据集如何切分
如何删除数据集图片
从AI Gallery下载到桶里的数据集,再在ModelArts里创建数据集,显示样本数为0
Notebook(新版)
规格限制
是否支持sudo提权?
是否支持apt-get?
是否支持Keras引擎?
是否支持caffe引擎?
是否支持本地安装MoXing?
Notebook支持远程登录吗?
文件上传下载
如何在Notebook中上传下载OBS文件?
如何上传本地文件至Notebook?
如何导入大文件到Notebook中?
upload后,数据将上传到哪里?
如何下载Notebook中的文件到本地?
如何将开发环境Notebook A的数据拷贝到Notebook B中?
在Notebook中上传文件失败,如何解决?
动态挂载OBS并行文件系统成功,但是在Notebook的JupyterLab中无法看到本地挂载点
数据存储
如何对OBS的文件重命名?
Notebook停止或者重启后,“/cache”下的文件还存在么?如何避免重启?
如何使用pandas库处理OBS桶中的数据?
在Notebook中,如何访问其他账号的OBS桶?
JupyterLab默认工作路径是什么?
环境配置相关
如何查看Notebook使用的cuda版本?
如何打开ModelArts开发环境的Terminal功能?
如何在Notebook中安装外部库?
如何获取本机外网IP?
如何解决“在IOS系统里打开ModelArts的Notebook,字体显示异常”的问题?
Notebook有代理吗?如何关闭?
Notebook实例常见错误
创建Notebook实例后无法打开页面,如何处理?
使用pip install时出现“没有空间”的错误
使用pip install提示Read timed out
出现“save error”错误, 可以运行代码,但是无法保存
单击Notebook的打开按钮时报“请求超时”错误?
使用CodeLab时报错kernel restart
使用SSH工具连接Notebook,服务器的进程被清理了,GPU使用率显示还是100%
代码运行常见错误
Notebook无法执行代码,如何处理?
运行训练代码,出现dead kernel,并导致实例崩溃
如何解决训练过程中出现的cudaCheckError错误?
开发环境提示空间不足,如何解决?
如何处理使用opencv.imshow造成的内核崩溃?
使用Windows下生成的文本文件时报错找不到路径?
JupyterLab中文件保存失败,如何解决?
CodeLab
如何将git clone的py文件变为ipynb文件?
Notebook里面运行的实例,如果重启,数据集会丢失么?
Jupyter可以安装插件吗?
是否支持在CodeLab中使用昇腾的卡进行训练?
如何在CodeLab上安装依赖?
VS Code使用技巧
安装远端插件时不稳定,需尝试多次
Notebook实例重新启动后,需要删除本地known_hosts才能连接
使用VS Code调试代码时不能进入源码
使用VS Code提交代码时弹出对话框提示用户名和用户邮箱配置错误
VS Code中查看远端日志
打开VS Code的配置文件settings.json
VS Code背景配置为豆沙绿
VS Code中设置远端默认安装的插件
VS Code中把本地的指定插件安装到远端或把远端插件安装到本地
VS Code连接开发环境失败常见问题
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接
VS Code连接开发环境失败时,请先进行基础问题排查
远程连接出现弹窗报错:Could not establish connection to xxx
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决?
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决?
连接远端开发环境时,一直处于"ModelArts Remote Connect: Connecting to instance xxx..."超过10分钟以上,如何解决?
远程连接处于retry状态如何解决?
报错“The VS Code Server failed to start”如何解决?
报错“Permissions for 'x:/xxx.pem' are too open”如何解决?
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决?
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决?
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决?
报错”Load key "C:/Users/xx/test1/xxx.pem": invalid format“如何解决?
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决?
报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决?
报错”Host key verification failed.'或者'Port forwarding is disabled.”如何解决?
报错”Failed to install the VS Code Server.”或”tar: Error is not recoverable: exitng now.”如何解决?
VS Code连接远端Notebook时报错如“XHR failed”
VS Code连接后长时间未操作,连接自动断开
VS Code自动升级后,导致远程连接时间过长
使用SSH连接,报错“Connection reset”如何解决?
使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决?
在Notebook中使用自定义镜像常见问题
不在同一个主账号下,如何使用他人的自定义镜像创建Notebook?
更多功能咨询
在Notebook中,如何使用昇腾多卡进行调试?
使用Notebook不同的资源规格,为什么训练速度差不多?
使用MoXing时,如何进行增量训练?
在Notebook中如何查看GPU使用情况
如何在代码中打印GPU使用信息
Ascend上如何查看实时性能指标?
不启用自动停止,系统会自动停掉Notebook实例吗?会删除Notebook实例吗?
JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系
如何迁移旧版Notebook数据到新版Notebook
ModelArts中创建的数据集,如何在Notebook中使用
pip介绍及常用命令
开发环境中不同Notebook规格资源“/cache”目录的大小
开发环境如何实现IAM用户隔离?
资源超分对Notebook实例有什么影响?
训练作业
功能咨询
是否支持图像分割任务的训练?
本地导入的算法有哪些格式要求?
欠拟合的解决方法有哪些?
旧版训练迁移至新版训练需要注意哪些问题?
ModelArts训练好后的模型如何获取?
AI引擎Scikit_Learn0.18.1的运行环境怎么设置?
TPE算法优化的超参数必须是分类特征(categorical features)么?
模型可视化作业中各参数的意义?
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练?
如何查询自定义镜像的cuda和cudnn版本?
Moxing安装文件如何获取?
如何使用soft NMS方法降低目标框堆叠度
多节点训练TensorFlow框架ps节点作为server会一直挂着,modelarts是怎么判定训练任务结束?如何知道是哪个节点是worker呢?
训练作业的自定义镜像如何安装Moxing?
子用户使用专属资源池创建训练作业无法选择已有的SFS Turbo
训练过程读取数据
在ModelArts上训练模型,输入输出数据如何配置?
如何提升训练效率,同时减少与OBS的交互?
大量数据文件,训练过程中读取数据效率低?
使用Moxing时如何定义路径变量?
编写训练代码
训练模型时引用依赖包,如何创建训练作业?
训练作业常用文件路径是什么?
如何安装C++的依赖库?
训练作业中如何判断文件夹是否拷贝完毕?
如何在训练中加载部分训练好的参数?
训练作业的启动文件如何获取训练作业中的参数?
训练作业中使用os.system('cd xxx')无法进入相应的文件夹?
训练作业如何调用shell脚本,是否可以执行.sh文件?
训练代码中,如何获取依赖文件所在的路径?
自定义python包中如果引用model目录下的文件,文件路径怎么写
创建训练作业
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决?
训练作业参数填写应该注意什么?
训练环境中不同规格资源“/cache”目录的大小
训练作业的“/cache”目录是否安全?
训练作业一直在等待中(排队)?
创建训练作业时,超参目录为什么有的是/work有的是/ma-user?
管理训练作业版本
训练作业是否支持定时或周期调用?
查看作业详情
如何查看训练作业资源占用情况?
如何访问训练作业的后台?
两个训练作业的模型都保存在容器相同的目录下是否有冲突?
训练输出的日志只保留3位有效数字,是否支持更改loss值?
训练好的模型是否可以下载或迁移到其他账号?如何获取下载路径?
推理部署
模型管理
导入模型
如何将Keras的.h5格式模型导入到ModelArts中
导入模型时,模型配置文件中的安装包依赖参数如何编写?
使用自定义镜像创建在线服务,如何修改默认端口
ModelArts平台是否支持多模型导入
导入AI应用对于镜像大小限制
压缩和转换模型
ModelArts和Hilens的模型转换有什么区别吗?
本地构建的模型如何转化为可应用Ascend芯片上的模型?
是否支持将Tensorflow转换为onnx模型
部署上线
功能咨询
ModelArts支持将模型部署为哪些类型的服务?
在线服务和批量服务有什么区别?
在线服务和边缘服务有什么区别?
为什么选择不了Ascend Snt3资源?
线上训练得到的模型是否支持离线部署在本地?
服务预测请求体大小限制是多少?
在线服务部署是否支持包周期?
部署服务如何选择计算节点规格?
部署GPU服务支持的Cuda版本是多少?
在线服务
部署在线服务时,自定义预测脚本python依赖包出现冲突,导致运行出错
在线服务预测时,如何提高预测速度?
调整模型后,部署新版本AI应用能否保持原API接口不变?
在线服务的API接口组成规则是什么?
在线服务运行中但是预测失败时,如何排查报错是不是模型原因导致的
在线服务处于运行中状态时,如何填写推理请求的request header和request body
作为调用发起方的客户端无法访问已经获取到的推理请求地址
服务部署失败,报错ModelArts.3520,服务数量超限
配置了合理的服务部署超时时间,服务还是部署失败,无法启动
边缘服务
什么是边缘节点?
更新AI应用版本时,边缘服务预测功能不可用?
使用边缘节点部署边缘服务能否使用http接口协议?
资源池
ModelArts支持使用ECS创建专属资源池吗?
1个节点的专属资源池,能否部署多个服务?
专属资源池购买后,中途扩容了一个节点,如何计费?
共享池和专属池的区别是什么?
如何通过ssh登录专属资源池节点?
训练任务的排队逻辑是什么?
专属资源池下的在线服务停止后,启动新的在线服务,提示资源不足
不同实例的资源池安装的cuda和驱动版本号分别是什么?
算法运行时需要依赖鉴权服务,公共资源池是否支持两者打通网络?
创建失败的专属资源池删除后,控制台为什么还能看到?
训练专属资源池如何与SFS弹性文件系统配置对等链接?
AI Gallery
AI Gallery的入口在哪里
在AI Gallery订阅商品失败怎么办?
在AI Gallery订阅的数据集可以在SDK中使用吗?
AI Gallery支持哪些区域?
AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的?
API/SDK
ModelArts SDK、OBS SDK和MoXing的区别?
ModelArts的API或SDK支持模型下载到本地吗?
ModelArts的SDK支持哪些安装环境?
ModelArts通过OBS的API访问OBS中的文件,算内网还是公网?
调用API提交训练作业后,能否绘制作业的资源占用率曲线?
如何使用API接口获取订阅算法的订阅id和版本id?
使用SDK如何查看旧版专属资源池列表?
调用API接口创建训练作业和部署服务时,如何填写资源池的参数?
PyCharm Toolkit使用
安装ToolKit工具时出现错误,如何处理?
PyCharm ToolKit工具中Edit Credential时,出现错误
为什么无法启动训练?
提交训练作业时,出现xxx isn't existed in train_version错误
提交训练作业报错“Invalid OBS path”
使用PyCharm Toolkit提交训练作业报错NoSuchKey
部署上线时,出现错误
如何查看PyCharm ToolKit的错误日志
如何通过PyCharm ToolKit创建多个作业同时训练?
使用PyCharm ToolKit ,提示Error occurs when accessing to OBS
修订记录
故障排除
通用问题
ModelArts中提示OBS路径错误
自动学习
准备数据
数据集版本发布失败
数据集版本不合格
模型训练
自动学习训练作业创建失败
自动学习训练作业失败
部署上线
部署上线任务提交失败
部署上线失败
模型发布
模型发布任务提交失败
模型发布失败
开发环境
环境配置故障
Notebook提示磁盘空间已满
Notebook中使用Conda安装Keras 2.3.1报错
Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx
Notebook中已安装对应库,仍报错import numba ModuleNotFoundError: No module named 'numba'
实例故障
创建Notebook失败,查看事件显示JupyterProcessKilled
创建Notebook实例后无法打开页面,如何处理?
使用pip install时出现“没有空间”的错误
出现“save error”错误, 可以运行代码,但是无法保存
单击Notebook的打开按钮时报“请求超时”错误?
出现ModelArts.6333错误,如何处理?
打开Notebook实例提示token不存在或者token丢失如何处理?
代码运行故障
Notebook运行代码报错,在'/tmp'中到不到文件
Notebook无法执行代码,如何处理?
运行训练代码,出现dead kernel,并导致实例崩溃
如何解决训练过程中出现的cudaCheckError错误?
开发环境提示空间不足,如何解决?
如何处理使用opencv.imshow造成的内核崩溃?
使用Windows下生成的文本文件时报错找不到路径?
创建Notebook文件后,右上角的Kernel状态为“No Kernel”如何处理?
JupyterLab插件故障
git插件密码失效如何解决?
镜像保存故障
镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False,Error response from daemon,Cannot pause container xxx”如何解决?
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决?
保存镜像时报错“too many layers in your image”如何解决?
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决?
其他故障
Notebook中无法打开“checkpoints”文件夹
创建新版Notebook无法使用已购买的专属资源池,如何解决?
在Notebook中使用tensorboard命令打开日志文件报错Permission denied
训练作业
OBS操作相关故障
读取文件报错,如何正确读取文件
TensorFlow-1.8作业连接OBS时反复出现提示错误
TensorFlow在OBS写入TensorBoard到达5GB时停止
保存模型时出现Unable to connect to endpoint错误
OBS拷贝过程中提示“BrokenPipeError: Broken pipe”
日志提示“ValueError: Invalid endpoint: obs.xxxx.com”
日志提示“errorMessage:The specified key does not exist”
tensorboard显示502 bad gateway
云上迁移适配故障
无法导入模块
训练作业日志中提示“No module named .*”
如何安装第三方包,安装报错的处理方法
下载代码目录失败
训练作业日志中提示“No such file or directory”
训练过程中无法找到so文件
ModelArts训练作业无法解析参数,日志报错
训练输出路径被其他作业使用
使用自定义镜像创建训练作业,找不到启动文件
Pytorch1.0引擎提示“RuntimeError: std::exception”
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]”
使用moxing适配OBS路径,pandas读取文件报错
日志提示“Please upgrade numpy to >= xxx to use this pandas version”
重装的包与镜像装CUDA版本不匹配
创建训练作业提示错误码ModelArts.2763
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'”
系统容器异常退出
硬盘限制故障
下载或读取文件报错,提示超时、无剩余空间
拷贝数据至容器中空间不足
Tensorflow多节点作业下载数据到/cache显示No space left
日志文件的大小达到限制
日志提示"write line error"
日志提示“No space left on device”
OOM导致训练作业失败
常见的磁盘空间不足的问题和解决办法
外网访问限制
日志提示“ Network is unreachable”
运行训练作业时提示URL连接超时
权限问题
训练作业访问OBS时,日志提示“stat:403 reason:Forbidden”
日志提示"Permission denied"
GPU相关问题
日志提示"No CUDA-capable device is detected"
日志提示“RuntimeError: connect() timed out”
日志提示“cuda runtime error (10) : invalid device ordinal at xxx”
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess”
训练作业找不到GPU
业务代码问题
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields”
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0”
训练作业失败,返回错误码139
训练作业失败,如何使用开发环境调试训练代码?
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key”
日志报错“DataFrame.dtypes for data must be int, float or bool”
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ”
日志提示“Out of bounds nanosecond timestamp”
日志提示“Unexpected keyword argument passed to optimizer”
日志提示“no socket interface found”
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP”
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'”
日志提示“No module name 'unidecode'”
分布式Tensorflow无法使用“tf.variable”
MXNet创建kvstore时程序被阻塞,无报错
日志出现ECC错误,导致训练作业失败
超过最大递归深度导致训练作业失败
使用预置算法训练时,训练失败,报“bndbox”错误
训练作业状态显示“审核作业初始化”
训练作业进程异常退出
训练作业进程被kill
预置算法运行故障
日志提示“label_map.pbtxt cannot be found”
日志提示“root: XXX valid number is 0”
日志提示“ValueError: label_map not match”
日志提示“Please set the train_url to an empty obs directory”
日志提示“UnboundLocalError: local variable 'epoch'”
使用订阅算法训练结束后没有显示模型评估结果
使用python3.6-torch1.4版本镜像环境安装MMCV报错
训练作业卡死
训练作业卡死检测定位
复制数据卡死
训练前卡死
训练中途卡死
训练最后一个epoch卡死
训练作业运行失败
训练作业运行失败排查指导
训练作业运行失败,出现NCCL报错
自定义镜像训练作业失败定位思路
使用自定义镜像创建的训练作业一直处于运行中
使用自定义镜像创建训练作业找不到启动文件
训练作业的监控内存指标持续升高直至作业失败
订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot be found
训练作业训练失败报错:TypeError: unhashable type: ‘list’
专属资源池创建训练作业
创建训练作业界面无云存储名称和挂载路径排查思路
创建训练作业时出现“实例挂卷失败”的事件
训练作业性能问题
训练作业性能降低
Ascend相关问题
Cann软件与Ascend驱动版本不匹配
训练作业的日志出现detect failed(昇腾预检失败)
推理部署
AI应用管理
Caffe模型转换不成功
TensorFlow模型转换失败
模型转换失败,报错Model contains dynamic shape input, please specify input shape explicitly
创建AI应用失败,如何定位和处理问题?
导入AI应用提示该账号受限或者没有操作权限
用户创建AI应用时构建镜像或导入文件失败
创建AI应用时,OBS文件目录对应镜像里面的目录结构是什么样的?
通过OBS导入AI应用时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志
通过OBS创建AI应用时,构建日志中提示pip下载包失败
通过自定义镜像创建AI应用失败
导入AI应用后部署服务,提示磁盘不足
创建AI应用成功后,部署服务报错,如何排查代码问题
自定义镜像导入配置运行时依赖无效
通过API接口查询AI应用详情,model_name返回值出现乱码
导入AI应用提示模型或镜像大小超过限制
导入AI应用提示单个模型文件超过5G限制
订阅的AI应用一直处于等待同步状态
创建AI应用失败,提示模型镜像构建任务超时,没有构建日志
服务部署
自定义镜像模型部署为在线服务时出现异常
部署的在线服务状态为告警
服务启动失败
服务部署、启动、升级和修改时,拉取镜像失败如何处理?
服务部署、启动、升级和修改时,镜像不断重启如何处理?
服务部署、启动、升级和修改时,容器健康检查失败如何处理?
服务部署、启动、升级和修改时,资源不足如何处理?
模型使用CV2包部署在线服务报错
服务状态一直处于“部署中”
服务启动后,状态断断续续处于“告警中”
服务部署失败,报错No Module named XXX
边缘服务部署失败
批量服务输入/输出obs目录不存在或者权限不足
部署在线服务出现报错No CUDA runtime is found
使用AI市场物体检测YOLOv3_Darknet53算法训练后部署在线服务报错
使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments
服务预测
服务预测失败
服务预测失败,报错APIG.XXXX
在线服务预测报错ModelArts.4206
在线服务预测报错ModelArts.4302
在线服务预测报错ModelArts.4503
在线服务预测报错MR.0105
在线服务预测报错ModelArts.2803
请求超时返回Timeout
自定义镜像导入模型部署上线调用API报错
在线服务预测报错DL.0105
时序预测-time_series_v2算法部署在线服务预测报错
MoXing
使用MoXing复制数据报错
如何关闭Mox的warmup
Pytorch Mox日志反复输出
moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune?
训练作业使用MoXing拷贝数据较慢,重复打印日志
MoXing如何访问文件夹并使用get_size读取文件夹大小?
API/SDK
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError”
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错
调用API创建训练作业,训练作业异常
修订记录
AI Gallery
AI Gallery(新版)
AI Gallery简介
资产托管
资产托管简介
托管模型资产
托管数据集资产
资产管理
资产上架
资产下架
管理模型的可用范围
我的Gallery介绍
模型微调
模型部署为AI应用
模型部署为推理服务
体验解决方案
购买ModelArts Lite的算力资源
订阅使用
查找和收藏资产
订阅免费模型
下载数据
使用AI示例
使用AI应用
发布分享
发布免费算法
发布免费模型
发布数据
发布示例(Notebook)
发布技术文章(AI说)
参加活动(活动)
Gallery CLI配置工具指南
Gallery CLI配置工具介绍
安装Gallery CLI配置工具
登录登出Gallery CLI配置工具
使用Gallery CLI配置工具下载文件
使用AI Gallery SDK构建自定义模型
背景信息
操作步骤
计算规格说明
自定义模型规范
修订记录
AI Gallery(旧版)
AI Gallery简介
免费资产和商用资产
入驻AI Gallery
我的Gallery介绍
订阅使用
查找和收藏资产
订阅免费算法
订阅免费模型
下载数据
使用Notebook代码样例
使用镜像
使用AI案例
订阅Workflow
发布分享
发布免费算法
发布免费模型
发布数据
发布Notebook
参加活动
报名实践活动(实践)
发布技术文章(AI说)
合作伙伴
注册伙伴
发布解决方案
需求广场
发布需求
修订记录
MoXing开发指南
MoXing Framework简介
快速入门
引入MoXing Framework模块
mox.file与本地接口的对应关系和切换
常用操作的样例代码
进阶用法的样例代码
模型封装
AI应用开发介绍
准备开发环境
创建访问密钥
安装VS Code软件
创建云上开发环境
连接云上开发环境
第一个AI应用
创建应用工程
应用样例1:视频车辆检测
样例介绍
运行应用样例
应用样例:图片行人检测
样例介绍
运行应用样例
AI应用开发和调试
ModelBox基本概念
开发AI应用
调试AI应用
调试方式介绍
开发环境内调试
部署到推理调试
将AI应用发布到ModelArts模型管理
数据准备与分析
数据准备简介
入门教程
创建数据集
数据集简介
创建数据集
修改数据集
数据接入
数据接入简介
从AI Gallery下载数据集
从OBS导入数据
OBS导入数据简介
OBS目录导入操作
OBS目录导入数据规范说明
Manifest文件导入操作
Manifest文件导入规范说明
从DLI导入数据
从MRS导入数据
从DWS导入数据
从本地上传数据
数据分析与预览
数据处理
自动分组
数据筛选
数据特征分析
数据标注
数据发布
数据发布简介
发布数据版本
管理数据版本
数据导出
数据导出简介
导出数据为新数据集
导出数据到OBS
导出到AI Gallery
数据标注
数据标注简介
人工标注
创建标注作业
图片标注
图像分类
物体检测
图像分割
文本标注
文本分类
命名实体
文本三元组
音频标注
声音分类
语音内容
语音分割
视频标注
查看标注作业
查看创建的作业
查看参与标注的作业
智能标注
创建智能标注作业
难例确认
团队标注
团队标注简介
创建和管理团队
管理团队
管理成员
创建团队标注任务
登录ModelArts-Console
启动团队标注任务
审核团队标注任务结果
验收团队标注任务结果
数据处理
数据处理简介
使用预置的数据处理工具
创建数据处理任务
管理和查看数据处理任务
数据处理预置算子说明
数据校验
数据清洗
数据选择
数据去重
数据去冗余
数据增强
数据扩增
数据生成
数据域迁移
AI工程师用户指南(即将下线)
AI工程师如何使用ModelArts
数据管理(旧版即将下线)
数据管理简介
创建数据集(旧版)
标注数据
图像分类
物体检测
图像分割
文本分类
命名实体
文本三元组
声音分类
语音内容
语音分割
视频标注
导入数据
导入操作
从OBS目录导入的规范说明
导入Manifest文件的规范说明
导出数据
修改数据集
发布数据集
删除数据集
管理数据集版本
智能标注
难例确认
自动分组
数据特征
团队标注
团队标注简介
管理团队
管理成员
管理团队标注任务
数据处理
数据处理简介
创建数据处理任务
管理和查看数据处理任务
预置算子说明
数据校验
数据清洗
数据选择
数据选择(难例)
数据增强(数据扩增)
数据增强(图像生成)
训练管理(旧版即将下线)
模型训练简介
订阅算法
常用框架
创建训练作业
创建训练作业简介
使用已有算法训练模型
使用常用框架训练模型
使用自定义镜像训练模型
停止或删除作业
管理训练作业版本
查看作业详情
管理作业参数
添加评估结果
管理可视化作业
资源池(旧版即将下线)
使用自定义镜像
自定义镜像简介
制作和上传自定义镜像
用于训练模型(旧版即将下线)
训练作业自定义镜像规范
使用自定义镜像创建训练作业(GPU)
使用自定义镜像训练模型(Ascend)
示例:使用自定义镜像创建训练作业
权限管理
创建并授权使用ModelArts
创建ModelArts自定义策略
审计日志
支持云审计的关键操作
查看审计日志
建议反馈
修订记录
文档下载
通用参考
产品术语
云服务等级协议(SLA)
白皮书资源
支持区域
系统权限