- 最新动态
- 功能总览
- 服务公告
- 产品介绍
- 计费说明
- 快速入门
-
ModelArts用户指南(Standard)
- ModelArts Standard使用流程
- ModelArts Standard准备工作
- ModelArts Standard资源管理
- 使用自动学习实现零代码AI开发
- 使用Workflow实现低代码AI开发
- 使用Notebook进行AI开发调试
- 数据准备与处理
- 使用ModelArts Standard训练模型
- 使用ModelArts Standard部署模型并推理预测
- 制作自定义镜像用于ModelArts Standard
- ModelArts Standard资源监控
- 使用CTS审计ModelArts服务
- ModelArts用户指南(Lite Server)
- ModelArts用户指南(Lite Cluster)
- 最佳实践
-
API参考
- 使用前必读
- API概览
- 如何调用API
- 开发环境管理
- 训练管理
- AI应用管理
- APP认证管理
- 服务管理
- 资源管理
- DevServer管理
- 授权管理
- 配额管理
- 资源标签管理
- 节点池管理
- 应用示例
- 权限策略和授权项
- 公共参数
-
历史API
-
数据管理(旧版)
- 查询数据集列表
- 创建数据集
- 查询数据集详情
- 更新数据集
- 删除数据集
- 查询数据集的统计信息
- 查询数据集监控数据
- 查询数据集的版本列表
- 创建数据集标注版本
- 查询数据集版本详情
- 删除数据集标注版本
- 查询样本列表
- 批量添加样本
- 批量删除样本
- 查询单个样本信息
- 获取样本搜索条件
- 分页查询团队标注任务下的样本列表
- 查询团队标注的样本信息
- 查询数据集标签列表
- 创建数据集标签
- 批量修改标签
- 批量删除标签
- 按标签名称更新单个标签
- 按标签名称删除标签及仅包含此标签的文件
- 批量更新样本标签
- 查询数据集的团队标注任务列表
- 创建团队标注任务
- 查询团队标注任务详情
- 启动团队标注任务
- 更新团队标注任务
- 删除团队标注任务
- 创建团队标注验收任务
- 查询团队标注验收任务报告
- 更新团队标注验收任务状态
- 查询团队标注任务统计信息
- 查询团队标注任务成员的进度信息
- 团队成员查询团队标注任务列表
- 提交验收任务的样本评审意见
- 团队标注审核
- 批量更新团队标注样本的标签
- 查询标注团队列表
- 创建标注团队
- 查询标注团队详情
- 更新标注团队
- 删除标注团队
- 向标注成员发送邮件
- 查询所有团队的标注成员列表
- 查询标注团队的成员列表
- 创建标注团队的成员
- 批量删除标注团队成员
- 查询标注团队成员详情
- 更新标注团队成员
- 删除标注团队成员
- 查询数据集导入任务列表
- 创建导入任务
- 查询数据集导入任务的详情
- 查询数据集导出任务列表
- 创建数据集导出任务
- 查询数据集导出任务的状态
- 同步数据集
- 查询数据集同步任务的状态
- 查询智能标注的样本列表
- 查询单个智能标注样本的信息
- 分页查询智能任务列表
- 启动智能任务
- 获取智能任务的信息
- 停止智能任务
- 查询处理任务列表
- 创建处理任务
- 查询处理任务详情
- 更新处理任务
- 删除处理任务
- 开发环境(旧版)
- 训练管理(旧版)
-
数据管理(旧版)
- SDK参考
-
常见问题
-
一般性问题
- 什么是ModelArts
- ModelArts与其他服务的关系
- ModelArts与DLS服务的区别?
- 如何购买或开通ModelArts?
- 如何获取访问密钥?
- 如何上传数据至OBS?
- 提示“上传的AK/SK不可用”,如何解决?
- 使用ModelArts时提示“权限不足”,如何解决?
- 如何用ModelArts训练基于结构化数据的模型?
- 什么是区域、可用区?
- 在ModelArts中如何查看OBS目录下的所有文件?
- ModelArts数据集保存到容器的哪里?
- ModelArts支持哪些AI框架?
- ModelArts训练和推理分别对应哪些功能?
- 如何查看账号ID和IAM用户ID
- ModelArts AI识别可以单独针对一个标签识别吗?
- ModelArts如何通过标签实现资源分组管理
- 为什么资源充足还是在排队?
- 计费相关
- Standard自动学习
-
Standard数据管理
- 添加图片时,图片大小有限制吗?
- 数据集图片无法显示,如何解决?
- 如何将多个物体检测的数据集合并成一个数据集?
- 导入数据集失败
- 表格类型的数据集如何标注
- 本地标注的数据,导入ModelArts需要做什么?
- 为什么通过Manifest文件导入失败?
- 标注结果存储在哪里?
- 如何将标注结果下载至本地?
- 团队标注时,为什么团队成员收不到邮件?
- 可以两个账号同时进行一个数据集的标注吗?
- 团队标注的数据分配机制是什么?
- 标注过程中,已经分配标注任务后,能否将一个labeler从标注任务中删除?删除后对标注结果有什么影响?如果不能删除labeler,能否删除将他的标注结果从整体标注结果中分离出来?
- 数据标注中,难例集如何定义?什么情况下会被识别为难例?
- 物体检测标注时,支持叠加框吗?
- 如何将两个数据集合并?
- 智能标注是否支持多边形标注?
- 团队标注的完成验收的各选项表示什么意思?
- 同一个账户,图片展示角度不同是为什么?
- 智能标注完成后新加入数据是否需要重新训练?
- 为什么在ModelArts数据标注平台标注数据提示标注保存失败?
- 标注多个标签,是否可针对一个标签进行识别?
- 使用数据处理的数据扩增功能后,新增图片没有自动标注
- 视频数据集无法显示和播放视频
- 使用样例的有标签的数据或者自己通过其他方式打好标签的数据放到OBS桶里,在modelarts中同步数据源以后看不到已标注,全部显示为未标注
- 如何使用soft NMS方法降低目标框堆叠度
- ModelArts标注数据丢失,看不到标注过的图片的标签
- 如何将某些图片划分到验证集或者训练集?
- 物体检测标注时除了位置、物体名字,是否可以设置其他标签,比如是否遮挡、亮度等?
- ModelArts数据管理支持哪些格式?
- 旧版数据集中的数据是否会被清理?
- 数据集版本管理找不到新建的版本
- 如何查看数据集大小
- 如何查看新版数据集的标注详情
- 标注数据如何导出
- 找不到新创建的数据集
- 数据集配额不正确
- 数据集如何切分
- 如何删除数据集图片
- 从AI Gallery下载到桶里的数据集,再在ModelArts里创建数据集,显示样本数为0
-
Standard Notebook
- 规格限制
- 文件上传下载
- 数据存储
- 环境配置相关
- Notebook实例常见错误
- 代码运行常见错误
-
PyCharm Toolkit使用
- 安装ToolKit工具时出现错误,如何处理?
- PyCharm ToolKit工具中Edit Credential时,出现错误
- 为什么无法启动训练?
- 提交训练作业时,出现xxx isn't existed in train_version错误
- 提交训练作业报错“Invalid OBS path”
- 使用PyCharm Toolkit提交训练作业报错NoSuchKey
- 部署上线时,出现错误
- 如何查看PyCharm ToolKit的错误日志
- 如何通过PyCharm ToolKit创建多个作业同时训练?
- 使用PyCharm ToolKit ,提示Error occurs when accessing to OBS
- VS Code使用技巧
-
VS Code连接开发环境失败常见问题
- 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口
- 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接
- VS Code连接开发环境失败时的排查方法
- 远程连接出现弹窗报错:Could not establish connection to xxx
- 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决?
- 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决?
- 连接远端开发环境时,一直处于"ModelArts Remote Connect: Connecting to instance xxx..."超过10分钟以上,如何解决?
- 远程连接处于retry状态如何解决?
- 报错“The VS Code Server failed to start”如何解决?
- 报错“Permissions for 'x:/xxx.pem' are too open”如何解决?
- 报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决?
- 报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决?
- 报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决?
- 报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决?
- 报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决?
- 报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决?
- 报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决?
- 报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决?
- VS Code连接远端Notebook时报错“XHR failed”
- VS Code连接后长时间未操作,连接自动断开
- VS Code自动升级后,导致远程连接时间过长
- 使用SSH连接,报错“Connection reset”如何解决?
- 使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决?
- VS Code连接开发环境时报错Missing GLIBC,Missing required dependencies
- 使用VSCode-huawei,报错:卸载了‘ms-vscode-remote.remot-sdh’,它被报告存在问题
- 在Notebook中使用自定义镜像常见问题
-
更多功能咨询
- 在Notebook中,如何使用昇腾多卡进行调试?
- 使用Notebook不同的资源规格,为什么训练速度差不多?
- 使用MoXing时,如何进行增量训练?
- 在Notebook中如何查看GPU使用情况
- 如何在代码中打印GPU使用信息
- Ascend上如何查看实时性能指标?
- 不启用自动停止,系统会自动停掉Notebook实例吗?会删除Notebook实例吗?
- JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系
- ModelArts中创建的数据集,如何在Notebook中使用
- pip介绍及常用命令
- 开发环境中不同Notebook规格资源“/cache”目录的大小
- 开发环境如何实现IAM用户隔离?
- 资源超分对Notebook实例有什么影响?
- 在Notebook中使用tensorboard命令打开日志文件报错Permission denied
-
Standard训练作业
-
功能咨询
- 本地导入的算法有哪些格式要求?
- 欠拟合的解决方法有哪些?
- 旧版训练迁移至新版训练需要注意哪些问题?
- ModelArts训练好后的模型如何获取?
- AI引擎Scikit_Learn0.18.1的运行环境怎么设置?
- TPE算法优化的超参数必须是分类特征(categorical features)吗
- 模型可视化作业中各参数的意义?
- 如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练?
- 如何查询自定义镜像的cuda和cudnn版本?
- Moxing安装文件如何获取?
- 多节点训练TensorFlow框架ps节点作为server会一直挂着,ModelArts是怎么判定训练任务结束?如何知道是哪个节点是worker呢?
- 训练作业的自定义镜像如何安装Moxing?
- 子用户使用专属资源池创建训练作业无法选择已有的SFS Turbo
- 训练过程读取数据
- 编写训练代码
- 创建训练作业
- 管理训练作业版本
- 查看作业详情
-
功能咨询
- Standard推理部署
- Standard资源池
- API/SDK
-
一般性问题
-
故障排除
- 通用问题
- 自动学习
-
开发环境
- 环境配置故障
- 实例故障
- 代码运行故障
- JupyterLab插件故障
-
VS Code连接开发环境失败故障处理
- 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口
- 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接
- VS Code连接开发环境失败时的排查方法
- 远程连接出现弹窗报错:Could not establish connection to xxx
- 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决?
- 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决?
- 远程连接处于retry状态如何解决?
- 报错“The VS Code Server failed to start”如何解决?
- 报错“Permissions for 'x:/xxx.pem' are too open”如何解决?
- 报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决?
- 报错“Connection permission denied (publickey)”如何解决
- 报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决?
- 报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决?
- 报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决?
- 报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决?
- 报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决?
- 报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决?
- 报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决?
- VS Code连接远端Notebook时报错“XHR failed”
- VS Code连接后长时间未操作,连接自动断开
- VS Code自动升级后,导致远程连接时间过长
- 使用SSH连接,报错“Connection reset”如何解决?
- 使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决?
- VS Code连接开发环境时报错Missing GLIBC,Missing required dependencies
- 使用VSCode-huawei,报错:卸载了‘ms-vscode-remote.remot-sdh’,它被报告存在问题
- 使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配
- VSCode远程连接时卡顿,或Python调试插件无法使用如何处理?
-
自定义镜像故障
- Notebook自定义镜像故障基础排查
- 镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False,Error response from daemon,Cannot pause container xxx”如何解决?
- 镜像保存时报错“container size %dG is greater than threshold %dG”如何解决?
- 保存镜像时报错“too many layers in your image”如何解决?
- 镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决?
- 镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.”
- 使用自定义镜像创建Notebook后打开没有kernel
- 用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决?
- 用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found)
- 用户使用torch报错Unexpected error from cudaGetDeviceCount
- 其他故障
-
训练作业
- OBS操作相关故障
-
云上迁移适配故障
- 无法导入模块
- 训练作业日志中提示“No module named .*”
- 如何安装第三方包,安装报错的处理方法
- 下载代码目录失败
- 训练作业日志中提示“No such file or directory”
- 训练过程中无法找到so文件
- ModelArts训练作业无法解析参数,日志报错
- 训练输出路径被其他作业使用
- PyTorch1.0引擎提示“RuntimeError: std:exception”
- MindSpore日志提示“ retCode=0x91, [the model stream execute failed]”
- 使用moxing适配OBS路径,pandas读取文件报错
- 日志提示“Please upgrade numpy to >= xxx to use this pandas version”
- 重装的包与镜像装CUDA版本不匹配
- 创建训练作业提示错误码ModelArts.2763
- 训练作业日志中提示 “AttributeError: module '***' has no attribute '***'”
- 系统容器异常退出
- 硬盘限制故障
- 外网访问限制
- 权限问题
- GPU相关问题
-
业务代码问题
- 日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields”
- 日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0”
- 训练作业失败,返回错误码139
- 训练作业失败,如何使用开发环境调试训练代码?
- 日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key”
- 日志报错“DataFrame.dtypes for data must be int, float or bool”
- 日志提示“CUDNN_STATUS_NOT_SUPPORTED. ”
- 日志提示“Out of bounds nanosecond timestamp”
- 日志提示“Unexpected keyword argument passed to optimizer”
- 日志提示“no socket interface found”
- 日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP”
- 日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'”
- 日志提示“No module name 'unidecode'”
- 分布式Tensorflow无法使用“tf.variable”
- MXNet创建kvstore时程序被阻塞,无报错
- 日志出现ECC错误,导致训练作业失败
- 超过最大递归深度导致训练作业失败
- 使用预置算法训练时,训练失败,报“bndbox”错误
- 训练作业进程异常退出
- 训练作业进程被kill
- 训练作业运行失败
- 专属资源池创建训练作业
- 训练作业性能问题
-
推理部署
-
模型管理
- 创建模型失败,如何定位和处理问题?
- 导入模型提示该账号受限或者没有操作权限
- 用户创建模型时构建镜像或导入文件失败
- 创建模型时,OBS文件目录对应镜像里面的目录结构是什么样的?
- 通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志
- 通过OBS创建模型时,构建日志中提示pip下载包失败
- 通过自定义镜像创建模型失败
- 导入模型后部署服务,提示磁盘不足
- 创建模型成功后,部署服务报错,如何排查代码问题
- 自定义镜像导入配置运行时依赖无效
- 通过API接口查询模型详情,model_name返回值出现乱码
- 导入模型提示模型或镜像大小超过限制
- 导入模型提示单个模型文件超过5G限制
- 创建模型失败,提示模型镜像构建任务超时,没有构建日志
- 服务部署
- 服务预测
-
模型管理
- MoXing
- API/SDK
- 资源池
- 视频帮助
- 通用参考
链接复制成功!
创建ModelArts数据集
在ModelArts进行数据准备,首先需要先创建一个数据集,后续的操作如数据导入、数据分析、数据标注等,都是基于数据集来进行的。
数据集功能仅在以下Region支持:华北-北京四、西南-贵阳一、中国-香港、亚太-新加坡、亚太-曼谷、亚太-雅加达、非洲-约翰内斯堡、拉美-圣地亚哥、拉美-圣保罗一、拉美-墨西哥城二。
数据集的类型
当前ModelArts支持如下格式的数据集。
- 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。
- 音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。
- 文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。
- 视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。
- 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。
不同类型数据集支持的功能列表
其中,不同类型的数据集支持不同的功能,如智能标注、团队标注等。详细信息参考表1。
数据集类型 |
标注类型 |
创建数据集 |
导入数据 |
导出数据 |
发布数据集 |
修改数据集 |
管理版本 |
智能标注 |
团队标注 |
自动分组 |
数据特征 |
---|---|---|---|---|---|---|---|---|---|---|---|
图片 |
图像分类 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
物体检测 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
|
图像分割 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
- |
- |
支持 |
- |
|
音频 |
声音分类 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
- |
- |
语音内容 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
- |
- |
|
语音分割 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
支持 |
- |
- |
|
文本 |
文本分类 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
支持 |
- |
- |
命名实体 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
支持 |
- |
- |
|
文本三元组 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
支持 |
- |
- |
|
视频 |
视频 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
- |
- |
自由格式 |
自由格式 |
支持 |
- |
_ |
支持 |
支持 |
支持 |
- |
- |
- |
- |
表格 |
表格 |
支持 |
支持 |
- |
支持 |
支持 |
支持 |
- |
- |
- |
- |
规格限制
- 除表格类型之外的数据集(如视频、文本、音频等),单个数据集的最大样本数量限制:1000000,最大标签数量限制:10000。
- 除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。
- 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。
- 单个manifest文件大小限制:5GB。
- 文本文件单行大小限制:100KB。
- 数据集标注结果文件大小限制:100MB。
前提条件
- 数据集功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。在使用数据集功能之前,请前往“权限管理”页面,使用委托完成访问授权。
- 已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。当前不支持OBS并行文件系统,请选择OBS对象存储。
- ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。
创建数据集(图片、音频、文本、视频、自由格式)
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理> 数据集”,进入数据集管理页面。
- 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建不同类型的数据集。填写数据集基本信息。
图1 参数填写
- 名称:数据集的名称,可自定义您的数据集。
- 描述:该数据集的详情信息。
- 数据类型:根据实际需求,选择对应的数据类型。
- 数据来源:
- OBS导入数据
用户在OBS中有准备好的数据时,选择“OBS”、“导入路径”、“数据标注状态”和“标注格式”(当数据标注状态选择“已标注”时,需要填写该参数)和“数据集输出位置”。针对不同类型的数据集,数据输入支持的标注格式不同,ModelArts目前支持的标注格式及其说明请参见不同类型数据集支持的功能列表。
- 从本地上传数据。
ModelArts还支持从本地上传数据。本地上传时选择“上传数据存储路径”、“数据标注状态”和“数据集输出路径”。单击“文件上传”,上传您本地的数据。并选择“标注格式”(当数据标注状态为“已标注”时,需要关注该参数)。针对不同类型的数据集,数据输入支持的标注格式不同,ModelArts目前支持的标注格式及其说明请参见不同类型数据集支持的功能列表。
图2 数据来源选择本地上传
- OBS导入数据
- 更多参数填写请参见表2。
表2 数据集的详细参数 参数名称
说明
导入路径
选择需要导入数据的OBS路径,此位置会作为数据集的数据存储路径。
说明:
“导入路径”不支持OBS并行文件系统下的路径,请选择OBS对象桶。
创建数据集时,此OBS路径下的数据会导入数据集,后续如果直接在OBS中修改数据,会造成数据集的数据与OBS的数据不一致,可能导致部分数据不可用。如果需要在数据集中修改数据,建议使用同步数据源或4章节从OBS目录导入数据到数据集功能。
超出数据集的样本和标签配额,会导致数据无法正常导入。
数据标注状态
选择数据的标注状态,分为“未标注”和“已标注”。
选择“已标注”时,需指定标注格式,并保证数据文件满足相应的格式规范,否则可能存在导入失败的情况。
仅图片(物体检测、图像分类、图像分割)、音频(声音分类)、文本(文本分类)类型的标注任务支持导入已标注数据。
数据集输出位置
选择数据集输出位置的OBS路径,此位置会存放输出的标注信息等文件。
说明:
- 请确保您的OBS路径以字母、数字、下划线命名,不能包含特殊字符,例如:~'@#$%^&*{}[]:;+=<>/以及空格。
- “数据集输出位置”不能与“数据输入路径”为同一路径,且不能是“数据输入路径”的子目录。
- “数据集输出位置”建议选择一个空目录。
- “数据集输出位置”不支持OBS并行文件系统下的路径,请选择OBS对象桶。
高级特征选项-按标签导入
默认关闭,可通过勾选高级选项提供增强功能。
如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。
- 参数填写完成,单击“提交”,即可完成数据集的创建。
创建数据集(表格)
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理> 数据集”,进入数据集管理页面。
- 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建表格类型的数据集。填写数据集基本信息。
图3 表格类型的参数
- 名称:数据集的名称,可自定义您的数据集。
- 描述:该数据集的详情信息。
- 数据类型:根据实际需求,选择对应的数据类型。
- 更多参数填写请参考表3。
表3 数据集的详细参数 参数名称
说明
数据源(“OBS”)
- “文件路径”:单击输入框右侧按钮,可打开当前账号下的所有OBS桶,请选择需要导入的数据文件所在目录。
- “导入是否包含表头”:默认开启,表示导入文件包含表头。
- 如果您的原始表格中已包含表头,开启时,会将导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。
- 如果您的原始表格中没有表头,需手动关闭该开关,并更改Schema信息中的“列名”为attr_1、attr_2、……、attr_n,其中attr_n为最后一列,代表预测列。
OBS的详细功能说明,请参见《OBS用户指南》。
数据源(“DWS”)
- “集群名称”:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。
- “数据库名称”:根据选择的DWS集群,填写数据所在的数据库名称。
- “表名称”:根据选择的数据库,填写数据所在的表。
- “用户名”:输入DWS集群管理员用户的用户名。
- “密码”:输入DWS集群管理员用户的密码。
DWS的详细功能说明,请参见《DWS用户指南》。
说明:
从DWS导入数据,需要借助DLI的功能,如果用户没有访问DLI服务的权限,需根据页面提示创建DLI的委托。
数据源(“DLI”)
- “队列名称”:系统自动将当前账号下的DLI队列展现在列表中,您可以在下拉框中选择您所需的队列。
- “数据库名称”:根据选择的队列展现所有的数据库,请在下拉框中选择您所需的数据库。
- “表名称”:根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。
DLI的详细功能说明,请参见《DLI用户指南》。
数据源(“MRS”)
- “集群名称”:系统自动将当前账号下的MRS集群展现在此列表中,但是流式集群不支持导入操作。请在下拉框中选择您所需的集群。
- “文件路径”:根据选择的集群,输入对应的文件路径,此文件路径为HDFS路径。
- “导入是否包含表头”:开启表示导入时将表头同时导入。
MRS的详细功能说明,请参见《MRS用户指南》。
本地上传
上传数据存储路径:选择对应的数据存储的OBS路径。
Schema信息
表格的列名和对应类型,需要跟导入数据的列数保持一致。请根据您导入的数据输入“列名”,同时选择此列的“类型”。其中支持的类型见表4。
单击“添加Schema信息”,即可增加一行列。创建数据集时必须指定schema,且一旦创建不支持修改。
从OBS数据源导入数据,会自动获取文件路径下csv文件的schema,如果多个csv文件的schema不一致会报错。
说明:
从OBS选择数据后,Schema信息的列名会自动带出,且默认为表格中的第一行数据。为确保预测代码的正确性,请您手动更改Schema信息中的“列名”为attr_1、attr_2、……、attr_n,其中attr_n为最后一列,代表预测列。
数据集输出位置
选择表格数据存储路径(OBS路径),此位置会存放由数据源导入的数据。此位置不能和OBS数据源中的文件路径相同或为其子目录。
创建表格数据集后,在存储路径下会自动生成以下4个目录。
- annotation:版本发布目录,每次发布版本,会在此目录下生成和版本名称相同的子目录。
- data:数据存放目录,导入的数据会放在此目录。
- logs:日志存放目录。
- temp:临时工作目录。
表4 Schema数据类型说明 类型
描述
存储空间
范围
String
字符串
-
-
Short
有符号整数
2字节
-32768-32767
Int
有符号整数
4字节
-2147483648~2147483647
Long
有符号整数
8字节
-9223372036854775808~9223372036854775807
Double
双精度浮点型
8字节
-
Float
单精度浮点型
4字节
-
Byte
有符号整数
1字节
-128-127
Date
日期类型,描述了特定的年月日,格式:yyyy-MM-dd,例如2014-05-29
-
-
Timestamp
时间戳,表示日期和时间。格式:yyyy-MM-dd HH:mm:ss
-
-
Boolean
布尔类型
1字节
TRUE/FALSE
说明:
使用CSV文件时,需要注意以下两点:
- 当数据类型选择String时,默认会把双引号内的数据当作一条,所以同一行数据需要保证双引号闭环,否则会导致数据过大,无法显示。
- 当CSV文件的某一行的列数与定义的Schema不同,则会忽略当前行。
- 参数填写完成后,单击“提交”,即可完成数据集的创建。
修改数据集基本信息
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。
- 在数据集列表中,单击操作列的“更多>修改”。修改数据集基本信息,然后单击“确定”完成修改。
表5 参数说明 参数
说明
名称
数据集的名称,支持1~64位可见字符。名称只能是字母、中文、数字、下划线或者中划线组成的合法字符串。且只能以字母或者中文字符开头。
描述
数据集的简要描述。