输入
解释说明
输入数据(如图片名称、音频名称、标注文件名称)的名称长度应小于64英文字符,对于文件名称超过了64个英文字符的数据,训练作业将不会使用。
- 选择数据集
ModelArts数据管理提供了一套高效便捷的管理和标注数据框架,支持图片、文本、语音、视频等多种数据类型,可适用于各种AI项目,如计算机视觉、自然语言处理、音视频分析等。
请根据您的算法场景选择不同类型的数据集,且保证数据集已经完成标注工作。针对AI Gallery订阅算法,请仔细阅读算法输入要求,选择符合要求的数据集。
ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户将训练数据存放至OBS桶中使用。
- 选择数据存储位置
您需要将您本地已标注好的数据上传至OBS桶中,并在此处选择对应OBS路径。
需保证您的OBS桶与ModelArts在同一个区域,例如当前ModelArts在华北-北京四区域,在对象存储服务创建桶时,请选择华北-北京四。
请确保您使用的OBS桶的访问权限与您的读写操作匹配。
您使用的OBS桶存储类别应为标准存储,标准存储适用于频繁访问数据的业务场景。
常见问题
如何将数据上传至对象存储服务(OBS)桶?
您可以登录OBS管理控制台创建OBS桶,并在您创建的OBS桶中创建文件夹,然后再进行数据的上传,OBS上传数据的详细操作请参见OBS快速入门。
在ModelArts上运行训练作业时,如何读取云上的训练数据?
- 训练代码中需解析输入路径参数和输出路径参数。ModelArts推荐以下方式实现参数解析。
1 2 3 4 5 6 7 8 9
import argparse parser = argparse.ArgumentParser(description="train mnist", formatter_class=argparse.ArgumentDefaultsHelpFormatter) # 添加参数 parser.add_argument('--train_url', type=str, help='the path model saved') parser.add_argument('--data_url', type=str, help='the training data') # 解析参数 args, unknown = parser.parse_known_args()
完成参数解析后,用户可以把“data_url”、“train_url”当做本地的训练输入路径和输出路径,无需关心数据云上传输问题。
- 在创建自定义算法时,配置输入数据参数为data_url、输出数据参数为train_url。请参考创建算法指导。
- 在使用算法创建训练作业时,在训练输入位置设置云上数据存储路径。请参考创建训练作业指导。