文档首页/ AI开发平台ModelArts/ 常见问题/ Standard自动学习/ 准备数据/ 自动学习的每个项目对数据有哪些要求?
更新时间:2024-09-05 GMT+08:00
分享

自动学习的每个项目对数据有哪些要求?

图像分类对数据集的要求

  • 文件名规范:不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片,目前支持的格式包括jpg、jpeg、bmp、png。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 每一类数据尽量多,尽量均衡。期望获得良好效果,图像分类项目中,至少有两种以上的分类,每种分类的样本不少于20张。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
  • 用于训练的图片,至少有2种以上的分类,每种分类的图片数不少20张。

物体检测对数据集的要求

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 物体检测数据集中,如果标注框坐标超过图片,将无法识别该图片为已标注图片。
  • 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
  • 用于训练的图片,至少有1种以上的分类,每种分类的图片数不少50张。

预测分析对数据集的要求

训练数据:
  • 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。
  • 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。
  • 如果某一列的取值只有一种,会被视为无效列。请确保标签列的取值至少有两个且无数据缺失。

    标签列指的是在训练任务中被指定为训练目标的列,即最终通过该数据集训练得到模型时的输出(预测项)。

  • 除标签列外数据集中至少还应包含两个有效特征列(列的取值至少有两个且数据缺失比例低于10%)。
  • 当前由于特征筛选算法限制,预测数据列建议放在数据集最后一列,否则可能导致训练失败。

声音分类对数据集的要求

  • 音频只支持16bit的WAV格式。支持WAV的所有子格式。
  • 单条音频时长应大于1s,大小不能超过4MB。
  • 适当增加训练数据,会提升模型的精度。声音分类建议每类音频至少20条,每类音频总时长至少5分钟。
  • 建议训练数据和真实识别场景的声音保持一致并且每类的音频尽量覆盖真实环境的所有场景。
  • 训练集的数据质量对于模型的精度有很大影响,建议训练集音频的采样率和采样精度保持一致。
  • 标注质量对于最终的模型精度有极大的影响,标注过程中尽量不要出现误标情况。

文本分类对数据集的要求

  • 文件格式要求为txt或者csv,文件大小不能超过8MB。
  • 以换行符作为分隔符,每行数据代表一个标注对象。
  • 文本分类目前只支持中文。

相关文档