文档首页 > > 最佳实践>

获取ModelArts样例使用的数据集

获取ModelArts样例使用的数据集

分享
更新时间:2021/07/19 GMT+08:00

ModelArts针对多种AI引擎提供了多个样例,供新手用户学习使用,样例指导请参见《ModelArts最佳实践》。针对每个样例,ModelArts已将样例数据集存储在公共OBS桶中,您可以根据自己所在区域,选择对应的OBS路径,获取样例数据集。

各个样例的数据集的存储信息请参见样例数据集存储路径,基于您所用的OBS桶所在区域不同,您可以使用不同的方法将样例数据集拷贝至您的OBS桶中,不同场景下可使用的方法如图1所示。当数据集比较大时,推荐采用“方式2”或“方式3”进行拷贝;当数据集比较小时,推荐采用“方式1”获取数据集,操作更加便捷简单。

图1 拷贝样例数据集至您的OBS桶

样例数据集存储路径

样例数据集存储时,分为“压缩包”或“解压版”两种样式,两种样式对应的数据是相同的。

  • 压缩包:下载后,再上传至您自己的OBS桶中使用。需解压后使用,但是下载方便。
  • 解压版:直接可以拷贝至您自己的OBS桶中,即OBS桶对桶拷贝,前提是您的OBS桶需与样例数据集的OBS桶属于同一个区域。
表1 样例数据集详细路径

样例名称

数据集样式

所在区域

对应的OBS路径

对应的样例

找云宝

压缩包

华北-北京一

https://modelarts-cnnorth1-market-dataset.obs.cn-north-1.myhuaweicloud.com/dataset-market/Yunbao-Data-Custom/archiver/Yunbao-Data-Custom.zip

找云宝(使用自动学习实现物体检测应用)

华北-北京四

https://modelarts-cnnorth4-market-dataset.obs.cn-north-4.myhuaweicloud.com/dataset-market/Yunbao-Data-Custom/archiver/Yunbao-Data-Custom.zip

解压版

华北-北京一

obs://modelarts-cnnorth1-market-dataset/dataset-market/Yunbao-Data-Custom/unarchiver

华北-北京四

obs://modelarts-cnnorth4-market-dataset/dataset-market/Yunbao-Data-Custom/unarchiver

花卉识别

压缩包

华北-北京一

https://modelarts-cnnorth1-market-dataset.obs.cn-north-1.myhuaweicloud.com/dataset-market/Flowers-Data-Set/archiver/Flowers-Data-Set.zip

花卉识别(使用训练管理的预置算法实现图像分类,即将下架)

华北-北京四

https://modelarts-cnnorth4-market-dataset.obs.cn-north-4.myhuaweicloud.com/dataset-market/Flowers-Data-Set/archiver/Flowers-Data-Set.zip

解压版

华北-北京一

obs://modelarts-cnnorth1-market-dataset/dataset-market/Flowers-Data-Set/unarchiver

华北-北京四

obs://modelarts-cnnorth4-market-dataset/dataset-market/Flowers-Data-Set/unarchiver

冰山识别

压缩包

华北-北京一

https://modelarts-cnnorth1-market-dataset.obs.cn-north-1.myhuaweicloud.com/dataset-market/Iceberg-Data-Set/archiver/Iceberg-Data-Set.zip

冰山识别(使用MoXing框架实现图像分类)

华北-北京四

https://modelarts-cnnorth4-market-dataset.obs.cn-north-4.myhuaweicloud.com/dataset-market/Iceberg-Data-Set/archiver/Iceberg-Data-Set.zip

解压版

华北-北京一

obs://modelarts-cnnorth1-market-dataset/dataset-market/Iceberg-Data-Set/unarchiver

华北-北京四

obs://modelarts-cnnorth4-market-dataset/dataset-market/Iceberg-Data-Set/unarchiver

手写数字识别

压缩包

华北-北京一

https://modelarts-cnnorth1-market-dataset.obs.cn-north-1.myhuaweicloud.com/dataset-market/Mnist-Data-Set/archiver/Mnist-Data-Set.zip

使用MoXing开发训练脚本,实现手写数字识别

使用Notebook实现手写数字识别

使用MXNet实现手写数字识别

使用TensorFlow实现手写数字识别

使用Caffe实现手写数字识别

华北-北京四

https://modelarts-cnnorth4-market-dataset.obs.cn-north-4.myhuaweicloud.com/dataset-market/Mnist-Data-Set/archiver/Mnist-Data-Set.zip

解压版

华北-北京一

obs://modelarts-cnnorth1-market-dataset/dataset-market/Mnist-Data-Set/unarchiver

华北-北京四

obs://modelarts-cnnorth4-market-dataset/dataset-market/Mnist-Data-Set/unarchiver

Caltech图像识别

压缩包

华北-北京一

https://modelarts-cnnorth1-market-dataset.obs.cn-north-1.myhuaweicloud.com/dataset-market/Caltech101-data-set/archiver/Caltech101-data-set.zip

使用MXNet实现Caltech图像识别

华北-北京四

https://modelarts-cnnorth4-market-dataset.obs.cn-north-4.myhuaweicloud.com/dataset-market/Caltech101-data-set/archiver/Caltech101-data-set.zip

解压版

华北-北京一

obs://modelarts-cnnorth1-market-dataset/dataset-market/Caltech101-data-set/unarchiver

华北-北京四

obs://modelarts-cnnorth4-market-dataset/dataset-market/Caltech101-data-set/unarchiver

方式1:下载后再上传

针对方式1,其最大的特点是,对区域没有明确限制,您可以选择任意区域下载数据集。为提升操作效率,建议直接下载压缩包样式的样例数据集。但是下载和上传的速度,取决于您本地的网络情况。

图2 方式1的操作示意图
  1. 针对您需要使用的样例,选择其对应的样例数据集存储路径。您可以选择任意区域的OBS桶下面的数据集,建议选择压缩包样式的数据集下载路径。单击链接,样例数据集自动下载至本地。

    例如,单击“找云宝”样例的“华北-北京一”区域的下载地址,样例数据集的压缩包“Yunbao-Data-Custom.zip”将自动存储在本地。

  2. 将获得的压缩包解压缩,然后将数据集存储的文件夹全部上传至您使用的OBS路径下。
    1. 首先,创建一个用于存储样例数据集的OBS桶及文件夹。

      例如,您已创建了命名为“test-modelarts”的OBS桶,且创建了一个命名为“dataset-yunbao”的文件夹。

    2. “Yunbao-Data-Custom.zip”在本地解压缩至“Yunbao-Data-Custom”文件夹下。
    3. 参考上传文件,将“Yunbao-Data-Custom”文件夹下的所有文件上传至“test-modelarts/dataset-yunbao”OBS路径下。

方式2:使用MoXing接口从公共桶拷贝至您的OBS桶

针对方式2,其要求样例数据集与您的OBS桶在同一区域,且您熟悉Notebook以及ModelArts MoXing,您可以使用方式2提供的方式将公共桶中的样例数据集拷贝至您的OBS中。

建议在表1中,获取对应样例的解压版数据集的OBS路径(obs格式的路径),然后在ModelArts中创建一个Notebook实例,通过如下操作步骤,将数据集拷贝至您的OBS桶中。

  1. 进入ModelArts管理控制台,创建一个Notebook实例,然后在Jupyter页面中新建一个文件。
  2. 单击新建的文件进入开发环境。
  3. 检查样例数据集所在的公共桶是否可访问。

    例如,在表1中,获取“找云宝”样例在“华北-北京一”的数据集所在位置,其OBS路径为“obs://modelarts-cnnorth1-market-dataset/dataset-market/Yunbao-Data-Custom/unarchiver”。执行如下命令检查。

    import moxing as mox
    mox.file.exists('obs://modelarts-cnnorth1-market-dataset/dataset-market/Yunbao-Data-Custom/unarchiver')

    如果返回“True”表示OBS桶正常。

  4. 检查您的OBS桶是否可访问。

    例如,您已创建了命名为“test-modelarts”的OBS桶,且创建了一个命名为“dataset-yunbao”的文件夹。执行如下命令检查。

    import moxing as mox
    mox.file.exists('obs://test-modelarts/dataset-yunbao')

    如果返回“True”表示OBS桶正常。

  5. 确认您是否具备OBS桶的写入权限。

    例如,上文中您要拷贝的目的OBS桶路径为“obs://test-modelarts/dataset-yunbao”。执行如下命令检查,如果未出现异常,表示您具备权限。

    import moxing as mox
    mox.file.write('obs://test-modelarts/dataset-yunbao/obs_file.txt', 'Hello, OBS Bucket!')
    mox.file.remove('obs://test-modelarts/dataset-yunbao/obs_file.txt', recursive=False)
  6. 执行拷贝命令。将样本数据集从公共桶拷贝至您的OBS桶中。
    import moxing as mox
    mox.file.copy_parallel('obs://modelarts-cnnorth1-market-dataset/dataset-market/Yunbao-Data-Custom/unarchiver', 'obs://test-modelarts/dataset-yunbao
    ')
    print ('Copy procedure is completed')

    当返回“Copy procedure is completed”和执行时间时,表示拷贝完成。例如如下类似信息。

    Copy procedure is completed
    CPU times: user 117 ms, sys: 92.3 ms, total: 209 ms
    Wall time: 58.3 s

方式3:使用OBS的obsutill工具拷贝

针对方式3,其要求样例数据集与您的OBS桶在同一区域,您可以使用OBS提供的obsutil工具直接拷贝。建议在表1中,获取对应样例的解压版数据集的OBS路径(obs格式的路径),通过复制对象命令拷贝至您的OBS桶中。

obsutil工具的操作指导请参见OBS工具指南>obsutil

分享:

    相关文档

    相关产品