更新时间:2025-09-12 GMT+08:00
分享

输入

解释说明

输入数据(如图片名称、音频名称、标注文件名称)的名称长度应小于64英文字符,对于文件名称超过了64个英文字符的数据,训练作业将不会使用。

  • 选择数据集

    ModelArts数据管理提供了一套高效便捷的管理和标注数据框架,支持图片、文本、语音、视频等多种数据类型,可适用于各种AI项目,如计算机视觉、自然语言处理、音视频分析等。

    请根据您的算法场景选择不同类型的数据集,且保证数据集已经完成标注工作。针对AI Gallery订阅算法,请仔细阅读算法输入要求,选择符合要求的数据集。

    ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户将训练数据存放至OBS桶中使用。

  • 选择数据存储位置

    您需要将您本地已标注好的数据上传至OBS桶中,并在此处选择对应OBS路径。

    需保证您的OBS桶与ModelArts在同一个区域,例如当前ModelArts在华北-北京四区域,在对象存储服务创建桶时,请选择华北-北京四。

    请确保您使用的OBS桶的访问权限与您的读写操作匹配。

    您使用的OBS桶存储类别应为标准存储,标准存储适用于频繁访问数据的业务场景。

常见问题

如何将数据上传至对象存储服务(OBS)桶?

您可以登录OBS管理控制台创建OBS桶,并在您创建的OBS桶中创建文件夹,然后再进行数据的上传,OBS上传数据的详细操作请参见OBS快速入门

在ModelArts上运行训练作业时,如何读取云上的训练数据?

  1. 训练代码中需解析输入路径参数和输出路径参数。ModelArts推荐以下方式实现参数解析。
    1
    2
    3
    4
    5
    6
    7
    8
    9
    import argparse
    parser = argparse.ArgumentParser(description="train mnist",
                                     formatter_class=argparse.ArgumentDefaultsHelpFormatter)
    # 添加参数
    parser.add_argument('--train_url', type=str, 
                        help='the path model saved')
    parser.add_argument('--data_url', type=str, help='the training data')
    # 解析参数
    args, unknown = parser.parse_known_args()
    

    完成参数解析后,用户可以把“data_url”“train_url”当做本地的训练输入路径和输出路径,无需关心数据云上传输问题。

  2. 在创建自定义算法时,配置输入数据参数为data_url、输出数据参数为train_url。请参考创建算法指导。
  3. 在使用算法创建训练作业时,在训练输入位置设置云上数据存储路径。请参考创建训练作业指导。

相关文档