更新时间:2023-12-09 GMT+08:00
分享

数据处理

当数据采集和接入之后,数据一般是不能直接满足训练要求的。为了保障数据质量,以免对后续操作(如数据标注、模型训练等)带来负面影响,开发过程通常需要进行数据处理。ModelArts提供了数据处理的功能,目的是帮助用户从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。

ModelArts提供了四种基本的数据处理功能:

  • 数据校验:帮助AI开发者提前识别数据中的不合法数据,如已损坏数据、不合格数据等,有效防止数据噪声造成的算法精度下降或者训练失败问题。
  • 数据清洗:在数据校验的基础上,对数据进行一致性检查,处理一些无效值。
  • 数据选择:在AI开发过程中,采集的数据可能存在大量重复数据,重复数据对模型精度提升并没有太大作用,反而需要花费很多时间对其进行标注。使用数据选择进行数据预处理,对采集到的数据去重,根据相似度删除一些重复度比较高的数据。
  • 数据增强:数据增强的目的是帮助用户增加数据量。
分享:

    相关文档

    相关产品