更新时间:2022-12-06 GMT+08:00
分享

数据处理

当数据采集和接入之后,数据一般是不能直接满足训练要求的。为了保障数据质量,以免对后续操作(如数据标注、模型训练等)带来负面影响,开发过程通常需要进行数据处理。ModelArts提供了数据处理的功能,目的是帮助用户从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据

ModelArts提供了四种基本的数据处理功能:

  • 数据校验:帮助AI开发者提前识别数据中的不合法数据,如已损坏数据、不合格数据等,有效防止数据噪声造成的算法精度下降或者训练失败问题
  • 数据清洗:在数据校验的基础上,对数据进行一致性检查,处理一些无效值
  • 数据选择:在AI开发过程中,采集的数据可能存在大量重复数据,重复数据对模型精度提升并没有太大作用,反而需要花费很多时间对其进行标注使用数据选择进行数据预处理,对采集到的数据去重,根据相似度删除一些重复度比较高的数据
  • 数据增强:数据增强的目的是帮助用户增加数据量。

使用数据处理功能的具体步骤参考创建数据处理任务

分享:

    相关文档

    相关产品