更新时间:2024-04-30 GMT+08:00

数据准备简介

数据管理模块在重构升级中,对未使用过数据管理的用户不可见。如果要使用数据管理相关功能,建议提交工单开通权限。

通常来讲,AI人工智能三要素包括数据、算法和算力。数据的质量会影响模型的精度,一般来说,大量高质量的数据更有可能训练出高精度AI模型。现在很多算法使用常规数据能将准确率做到85%或者90%,而商业化应用要求会更高,如果将要模型精度提升至96%甚至99%,则需要大量高质量的数据,这个时候也会要求数据更加精细化、场景化、专业化,这也成为了AI模型突破瓶颈的关键性条件。如何快速准备大量高质量的数据已经成为AI开发过程中一个具有挑战性的问题。

ModelArts是面向AI开发者的一站式开发平台,能够支撑开发者从数据到AI应用的全流程开发过程,包含数据处理、算法开发、模型训练、模型部署等操作。并且提供AI Gallery功能,能够在市场内与其他开发者分享数据、算法、模型等。为了能帮用户快速准备大量高质量的数据,ModelArts数据管理提供了全流程的数据准备、数据处理和数据标注能力。

图1 ModelArts数据准备全流程

ModelArts数据管理为用户准备高质量的AI数据提供了以下主要能力:

  • 解决用户获取数据的问题。
    • 提供多种数据接入方式,支持用户从OBS,MRS,DLI以及DWS等服务导入用户的数据。
    • 提供18+数据增强算子,帮助用户扩增数据,增加训练用的数据量。
  • 帮助用户提高数据的质量。
    • 提供图像、文本、音频、视频等多种格式数据的预览,帮助用户识别数据质量。
    • 提供对数据进行多维筛选的能力,用户可以根据样本属性、标注信息等进行样本筛选。
    • 提供12+标注工具,方便用户进行精细化、场景化和专业化的数据标注。
    • 提供基于样本和标注结果进行特征分析,帮助用户整体了解数据的质量。
  • 提升用户数据准备的效率。
    • 提供数据版本管理能力,帮助用户提升数据管理的效率。
    • 提供交互式标注、智能标注等能力,提升用户数据标注的效率。
    • 提供团队标注以及团队标注流程管理能力,帮助用户提升大批量数据标注的能力。