- 最新动态
- 功能总览
- 服务公告
- 产品介绍
- 计费说明
- 快速入门
-
ModelArts Studio(MaaS)用户指南
- ModelArts Studio(MaaS)使用场景和使用流程
- 配置ModelArts Studio(MaaS)访问授权
- 准备ModelArts Studio(MaaS)资源
- 在ModelArts Studio(MaaS)模型广场查看模型
- 使用ModelArts Studio(MaaS)部署模型服务
- 调用ModelArts Studio(MaaS)部署的模型服务
- ModelArts Studio(MaaS) API调用规范
- 在ModelArts Studio(MaaS)管理我的服务
- 在ModelArts Studio(MaaS)管理API Key
- 使用ModelArts Studio(MaaS)创建多轮对话
-
ModelArts Standard用户指南
- ModelArts Standard使用流程
- ModelArts Standard准备工作
- ModelArts Standard资源管理
- 使用自动学习实现零代码AI开发
- 使用Workflow实现低代码AI开发
- 使用Notebook进行AI开发调试
- 数据准备与处理
- 使用ModelArts Standard训练模型
- 使用ModelArts Standard部署模型并推理预测
- 制作自定义镜像用于ModelArts Standard
- ModelArts Standard资源监控
- 使用CTS审计ModelArts Standard服务
- ModelArts Lite Server用户指南
- ModelArts用户指南(Lite Cluster)
- 最佳实践
-
API参考
- 使用前必读
- API概览
- 如何调用API
- 开发环境管理
- 训练管理
- AI应用管理
- APP认证管理
- 服务管理
- 资源管理
- DevServer管理
- 授权管理
- 配额管理
- 资源标签管理
- 节点池管理
- 应用示例
- 权限策略和授权项
-
历史API
-
数据管理(旧版)
- 查询数据集列表
- 创建数据集
- 查询数据集详情
- 更新数据集
- 删除数据集
- 查询数据集的统计信息
- 查询数据集监控数据
- 查询数据集的版本列表
- 创建数据集标注版本
- 查询数据集版本详情
- 删除数据集标注版本
- 查询样本列表
- 批量添加样本
- 批量删除样本
- 查询单个样本信息
- 获取样本搜索条件
- 分页查询团队标注任务下的样本列表
- 查询团队标注的样本信息
- 查询数据集标签列表
- 创建数据集标签
- 批量修改标签
- 批量删除标签
- 按标签名称更新单个标签
- 按标签名称删除标签及仅包含此标签的文件
- 批量更新样本标签
- 查询数据集的团队标注任务列表
- 创建团队标注任务
- 查询团队标注任务详情
- 启动团队标注任务
- 更新团队标注任务
- 删除团队标注任务
- 创建团队标注验收任务
- 查询团队标注验收任务报告
- 更新团队标注验收任务状态
- 查询团队标注任务统计信息
- 查询团队标注任务成员的进度信息
- 团队成员查询团队标注任务列表
- 提交验收任务的样本评审意见
- 团队标注审核
- 批量更新团队标注样本的标签
- 查询标注团队列表
- 创建标注团队
- 查询标注团队详情
- 更新标注团队
- 删除标注团队
- 向标注成员发送邮件
- 查询所有团队的标注成员列表
- 查询标注团队的成员列表
- 创建标注团队的成员
- 批量删除标注团队成员
- 查询标注团队成员详情
- 更新标注团队成员
- 删除标注团队成员
- 查询数据集导入任务列表
- 创建导入任务
- 查询数据集导入任务的详情
- 查询数据集导出任务列表
- 创建数据集导出任务
- 查询数据集导出任务的状态
- 同步数据集
- 查询数据集同步任务的状态
- 查询智能标注的样本列表
- 查询单个智能标注样本的信息
- 分页查询智能任务列表
- 启动智能任务
- 获取智能任务的信息
- 停止智能任务
- 查询处理任务列表
- 创建处理任务
- 查询处理任务详情
- 更新处理任务
- 删除处理任务
- 开发环境(旧版)
- 训练管理(旧版)
-
数据管理(旧版)
- 附录
- SDK参考
-
常见问题
- 权限相关
- 存储相关
- Standard自动学习
- Standard Workflow
-
Standard数据准备
- 在ModelArts数据集中添加图片对图片大小有限制吗?
- 如何将本地标注的数据导入ModelArts?
- 在ModelArts中数据标注完成后,标注结果存储在哪里?
- 在ModelArts中如何将标注结果下载至本地?
- 在ModelArts中进行团队标注时,为什么团队成员收不到邮件?
- ModelArts团队标注的数据分配机制是什么?
- 如何将两个ModelArts数据集合并?
- 在ModelArts中同一个账户,图片展示角度不同是为什么?
- 在ModelArts中智能标注完成后新加入数据需要重新训练吗?
- 在ModelArts中如何将图片划分到验证集或者训练集?
- 在ModelArts中物体检测标注时能否自定义标签?
- ModelArts数据集新建的版本找不到怎么办?
- 如何切分ModelArts数据集?
- 如何删除ModelArts数据集中的图片?
-
Standard Notebook
- ModelArts的Notebook是否支持Keras引擎?
- 如何在ModelArts的Notebook中上传下载OBS文件?
- ModelArts的Notebook实例upload后,数据会上传到哪里?
- 在ModelArts中如何将Notebook A的数据复制到Notebook B中?
- 在ModelArts的Notebook中如何对OBS的文件重命名?
- 在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据?
- 在ModelArts的Notebook中,如何访问其他账号的OBS桶?
- 在ModelArts的Notebook中JupyterLab默认工作路径是什么?
- 如何查看ModelArts的Notebook使用的cuda版本?
- 在ModelArts的Notebook中如何获取本机外网IP?
- ModelArts的Notebook有代理吗?如何关闭?
- 在ModelArts的Notebook中内置引擎不满足使用需要时,如何自定义引擎IPython Kernel?
- 在ModelArts的Notebook中安装远端插件时不稳定要怎么办?
- 在ModelArts的Notebook中实例重新启动后要怎么连接?
- 在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办?
- 在ModelArts的Notebook中使用VS Code如何查看远端日志?
- 在ModelArts的Notebook中如何打开VS Code的配置文件settings.json?
- 在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿?
- 在ModelArts的Notebook中如何设置VS Code远端默认安装的插件?
- 在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地?
- 在ModelArts的Notebook中,如何使用昇腾多卡进行调试?
- 在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多?
- 在ModelArts的Notebook中使用MoXing时,如何进行增量训练?
- 在ModelArts的Notebook中如何查看GPU使用情况?
- 在ModelArts的Notebook中如何在代码中打印GPU使用信息?
- 在ModelArts的Notebook中JupyterLab的目录、Terminal的文件和OBS的文件之间的关系是什么?
- 如何在ModelArts的Notebook实例中使用ModelArts数据集?
- pip介绍及常用命令
- 在ModelArts的Notebook中不同规格资源/cache目录的大小是多少?
- 资源超分对在ModelArts的Notebook实例有什么影响?
- 如何在Notebook中安装外部库?
- 在ModelArts的Notebook中,访问外网速度不稳定怎么办?
- Notebook是否支持使用gdb工具?
-
Standard模型训练
- 在ModelArts训练得到的模型欠拟合怎么办?
- 在ModelArts中训练好后的模型如何获取?
- 在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练?
- 在ModelArts上训练模型如何配置输入输出数据?
- 在ModelArts上如何提升训练效率并减少与OBS的交互?
- 在ModelArts中使用Moxing复制数据时如何定义路径变量?
- 在ModelArts上如何创建引用第三方依赖包的训练作业?
- 在ModelArts训练时如何安装C++的依赖库?
- 在ModelArts训练作业中如何判断文件夹是否复制完毕?
- 如何在ModelArts训练作业中加载部分训练好的参数?
- ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办?
- 在ModelArts训练代码中,如何获取依赖文件所在的路径?
- 自如何获取ModelArts训练容器中的文件实际路径?
- ModelArts训练中不同规格资源“/cache”目录的大小是多少?
- ModelArts训练作业为什么存在/work和/ma-user两种超参目录?
- 如何查看ModelArts训练作业资源占用情况?
- 如何将在ModelArts中训练好的模型下载或迁移到其他账号?
-
Standard推理部署
- 如何将Keras的.h5格式的模型导入到ModelArts中?
- ModelArts导入模型时,如何编写模型配置文件中的安装包依赖参数?
- 在ModelArts中使用自定义镜像创建在线服务,如何修改端口?
- ModelArts平台是否支持多模型导入?
- 在ModelArts中导入模型对于镜像大小有什么限制?
- ModelArts在线服务和批量服务有什么区别?
- 在ModelArts中部署模型时,为什么无法选择Ascend Snt3资源?
- ModelArts线上训练得到的模型是否支持离线部署在本地?
- ModelArts在线服务预测请求体大小限制是多少?
- ModelArts部署在线服务时,如何避免自定义预测脚本python依赖包出现冲突?
- ModelArts在线服务预测时,如何提高预测速度?
- 在ModelArts中调整模型后,部署新版本模型能否保持原API接口不变?
- ModelArts在线服务的API接口组成规则是什么?
- ModelArts在线服务处于运行中时,如何填写request header和request body?
-
Standard镜像相关
- 不在同一个主账号下,如何使用他人的自定义镜像创建Notebook?
- 如何登录并上传镜像到SWR?
- 在Dockerfile中如何给镜像设置环境变量?
- 如何通过docker镜像启动容器?
- 如何在ModelArts的Notebook中配置Conda源?
- ModelArts的自定义镜像软件版本匹配有哪些注意事项?
- 镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么?
- 如何保证自定义镜像能不因为超过35G而保存失败?
- 如何减小本地或ECS构建镜像的目的镜像的大小?
- 镜像过大,卸载原来的包重新打包镜像,最终镜像会变小吗?
- 在ModelArts镜像管理注册镜像报错ModelArts.6787怎么处理?
- 用户如何设置默认的kernel?
- Standard专属资源池
- ModelArts Studio(MaaS)
- API/SDK
-
故障排除
- 通用问题
- 自动学习
-
开发环境
- 环境配置故障
- 实例故障
- 代码运行故障
- JupyterLab插件故障
-
VS Code连接开发环境失败故障处理
- 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口
- 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接
- VS Code连接开发环境失败时的排查方法
- 远程连接出现弹窗报错:Could not establish connection to xxx
- 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决?
- 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决?
- 连接远端开发环境时,一直处于"ModelArts Remote Connect: Connecting to instance xxx..."超过10分钟以上,如何解决?
- 远程连接处于retry状态如何解决?
- 报错“The VS Code Server failed to start”如何解决?
- 报错“Permissions for 'x:/xxx.pem' are too open”如何解决?
- 报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决?
- 报错“Connection permission denied (publickey)”如何解决
- 报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决?
- 报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决?
- 报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决?
- 报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决?
- 报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决?
- 报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决?
- 报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决?
- VS Code连接远端Notebook时报错“XHR failed”
- VS Code连接后长时间未操作,连接自动断开
- VS Code自动升级后,导致远程连接时间过长
- 使用SSH连接,报错“Connection reset”如何解决?
- 使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决?
- VS Code连接开发环境时报错Missing GLIBC,Missing required dependencies
- 使用VSCode-huawei,报错:卸载了‘ms-vscode-remote.remot-sdh’,它被报告存在问题
- 使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配
-
自定义镜像故障
- Notebook自定义镜像故障基础排查
- 镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False,Error response from daemon,Cannot pause container xxx”如何解决?
- 镜像保存时报错“container size %dG is greater than threshold %dG”如何解决?
- 保存镜像时报错“too many layers in your image”如何解决?
- 镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决?
- 镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.”
- 使用自定义镜像创建Notebook后打开没有kernel
- 用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决?
- 用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found)
- 用户使用torch报错Unexpected error from cudaGetDeviceCount
- 其他故障
-
训练作业
- OBS操作相关故障
-
云上迁移适配故障
- 无法导入模块
- 训练作业日志中提示“No module named .*”
- 如何安装第三方包,安装报错的处理方法
- 下载代码目录失败
- 训练作业日志中提示“No such file or directory”
- 训练过程中无法找到so文件
- ModelArts训练作业无法解析参数,日志报错
- 训练输出路径被其他作业使用
- PyTorch1.0引擎提示“RuntimeError: std:exception”
- MindSpore日志提示“ retCode=0x91, [the model stream execute failed]”
- 使用moxing适配OBS路径,pandas读取文件报错
- 日志提示“Please upgrade numpy to >= xxx to use this pandas version”
- 重装的包与镜像装CUDA版本不匹配
- 创建训练作业提示错误码ModelArts.2763
- 训练作业日志中提示 “AttributeError: module '***' has no attribute '***'”
- 系统容器异常退出
- 硬盘限制故障
- 外网访问限制
- 权限问题
- GPU相关问题
-
业务代码问题
- 日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields”
- 日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0”
- 训练作业失败,返回错误码139
- 训练作业失败,如何使用开发环境调试训练代码?
- 日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key”
- 日志报错“DataFrame.dtypes for data must be int, float or bool”
- 日志提示“CUDNN_STATUS_NOT_SUPPORTED. ”
- 日志提示“Out of bounds nanosecond timestamp”
- 日志提示“Unexpected keyword argument passed to optimizer”
- 日志提示“no socket interface found”
- 日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP”
- 日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'”
- 日志提示“No module name 'unidecode'”
- 分布式Tensorflow无法使用“tf.variable”
- MXNet创建kvstore时程序被阻塞,无报错
- 日志出现ECC错误,导致训练作业失败
- 超过最大递归深度导致训练作业失败
- 使用预置算法训练时,训练失败,报“bndbox”错误
- 训练作业状态显示“审核作业初始化”
- 训练作业进程异常退出
- 训练作业进程被kill
- 训练作业卡死检测定位
- 训练作业运行失败
- 专属资源池创建训练作业
- 训练作业性能问题
-
推理部署
-
模型管理
- 创建模型失败,如何定位和处理问题?
- 导入模型提示该账号受限或者没有操作权限
- 用户创建模型时构建镜像或导入文件失败
- 创建模型时,OBS文件目录对应镜像里面的目录结构是什么样的?
- 通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志
- 通过OBS创建模型时,构建日志中提示pip下载包失败
- 通过自定义镜像创建模型失败
- 导入模型后部署服务,提示磁盘不足
- 创建模型成功后,部署服务报错,如何排查代码问题
- 自定义镜像导入配置运行时依赖无效
- 通过API接口查询模型详情,model_name返回值出现乱码
- 导入模型提示模型或镜像大小超过限制
- 导入模型提示单个模型文件超过5G限制
- 创建模型失败,提示模型镜像构建任务超时,没有构建日志
-
服务部署
- 自定义镜像模型部署为在线服务时出现异常
- 部署的在线服务状态为告警
- 服务启动失败
- 服务部署、启动、升级和修改时,拉取镜像失败如何处理?
- 服务部署、启动、升级和修改时,镜像不断重启如何处理?
- 服务部署、启动、升级和修改时,容器健康检查失败如何处理?
- 服务部署、启动、升级和修改时,资源不足如何处理?
- 模型使用CV2包部署在线服务报错
- 服务状态一直处于“部署中”
- 服务启动后,状态断断续续处于“告警中”
- 服务部署失败,报错No Module named XXX
- 批量服务输入/输出obs目录不存在或者权限不足
- 部署在线服务出现报错No CUDA runtime is found
- 内存不足如何处理?
- 在线服务数量限制默认为11个:ModelArts.3520
- 部署服务时报错exitcode:127
- 部署服务时报错pod has unbound immediate PersistentVolumeClaims
- 服务预测
-
模型管理
- MoXing
- API/SDK
- 资源池
- 视频帮助
- 通用参考
链接复制成功!
查询节点池的节点列表
功能介绍
查询节点池的节点列表。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
URI
GET /v2/{project_id}/pools/{pool_name}/nodepools/{nodepool_name}/nodes
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
project_id |
是 |
String |
用户项目ID。获取方法请参见获取项目ID和名称。 |
pool_name |
是 |
String |
资源池名称。 |
nodepool_name |
是 |
String |
节点池名称。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
continue |
否 |
String |
分页查询时上一页位置。 |
limit |
否 |
String |
分页单次查询返回数。 |
请求参数
无
响应参数
状态码:200
参数 |
参数类型 |
描述 |
---|---|---|
apiVersion |
String |
API版本。可选值如下:
|
kind |
String |
资源类型。可选值如下:
|
metadata |
NodeListMetadata object |
资源列表的metadata信息。 |
items |
Array of Node objects |
节点列表。 |
参数 |
参数类型 |
描述 |
---|---|---|
apiVersion |
String |
API版本。可选值如下:
|
kind |
String |
资源类型。可选值如下:
|
metadata |
metadata object |
节点metadata信息。 |
spec |
NodeSpec object |
节点期望信息。 |
status |
NodeStatus object |
节点状态信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
String |
节点名称。 |
creationTimestamp |
String |
创建时间。 |
annotations |
NodeVOAnnotations object |
节点annotation |
参数 |
参数类型 |
描述 |
---|---|---|
os.modelarts/npu-topology-placement |
String |
910卡占用拓扑信息。 将16进制转换成二进制后,比特位从右往左卡编号0-15,比特位1代表占用。 |
参数 |
参数类型 |
描述 |
---|---|---|
flavor |
String |
节点规格。 |
extendParams |
extendParams object |
自定义配置参数。 |
os |
Os object |
操作系统镜像信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
String |
操作系统名称。 |
imageId |
String |
操作系统镜像id。 |
imageType |
String |
操作系统镜像类型。
|
参数 |
参数类型 |
描述 |
---|---|---|
phase |
String |
节点当前状态。可选值如下:
|
az |
String |
节点所在的可用区。 |
privateIp |
String |
节点的IP地址。 |
resources |
NodeResource object |
节点资源量信息。 |
availableResources |
NodeResource object |
节点可用资源量信息。 |
参数 |
参数类型 |
描述 |
---|---|---|
cpu |
String |
CPU资源量。 |
memory |
String |
内存资源量。 |
nvidia.com/gpu |
String |
GPU节点的GPU资源量。 |
huawei.com/ascend-snt3 |
String |
昇腾节点的NPU资源量。 |
huawei.com/ascend-snt9 |
String |
昇腾节点的NPU资源量。 |
状态码:400
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
ModelArts错误码。 |
error_msg |
String |
具体错误信息。 |
请求示例
查询节点池的节点列表。
GET https://{endpoint}/v2/{project_id}/pools/{pool_name}/nodepools/{nodepool_name}/nodes
{
"kind" : "NodeList",
"apiVersion" : "v2",
"metadata" : { },
"items" : [ {
"kind" : "Node",
"apiVersion" : "v2",
"metadata" : {
"name" : "node-dly-4",
"creationTimestamp" : "2024-01-29T09:28:26Z",
"labels" : {
"os.modelarts.node/cluster" : "dly-lite",
"os.modelarts.node/nodepool" : "nodepool-1"
}
},
"spec" : {
"flavor" : "modelarts.vm.2u4g.dcc",
"hostNetwork" : {
"vpc" : "277e9abc-0e6b-431a-9232-cfd25d5fc566",
"subnet" : "03796378-c356-4c14-826b-e4913aa9c8b9",
"securityGroups" : [ "0a15b48d-06f1-41e4-b782-ade90087bf59" ]
}
},
"status" : {
"phase" : "Available",
"az" : "cn-north-7c",
"privateIp" : "192.168.1.132",
"resources" : {
"cpu" : "1930m",
"memory" : "1912Mi"
}
}
} ]
}
响应示例
状态码:200
OK。
{
"kind" : "NodeList",
"apiVersion" : "v2",
"metadata" : { },
"items" : [ {
"kind" : "Node",
"apiVersion" : "v2",
"metadata" : {
"name" : "node-dly-4",
"creationTimestamp" : "2024-01-29T09:28:26Z"
},
"spec" : {
"flavor" : "modelarts.vm.2u4g.dcc"
},
"status" : {
"phase" : "Available",
"az" : "cn-north-7c",
"privateIp" : "192.168.1.132",
"resources" : {
"cpu" : "1930m",
"memory" : "1912Mi"
}
}
} ]
}
状态码:400
Bad request
{
"error_code" : "ModelArts.50004000",
"error_msg" : "Bad request. invalid nodepool name"
}
状态码
状态码 |
描述 |
---|---|
200 |
OK。 |
400 |
Bad request |
错误码
请参见错误码。