数据
数据资产是指在ModelArts平台中被纳入管理、存储并可供使用的数据集,包含预置数据和我的数据两类资产。
预置数据
平台预置数据集是为用户提供的开箱即用的高质量数据资源,涵盖文本类、图片类、视频类和音频类四大类型的精选数据集。这些数据集经过严格筛选和预处理,可直接用于数据精炼、模型训练、微调和评估,大幅降低用户数据准备的时间成本和技术门槛。
在左侧导航栏中选择“资产管理 > 数据 > 预置数据”页签,平台预置数据集会以卡片形式呈现。通过预置数据卡片,可查看数据集名称、模态、类型、简介、更新时间、样本数等信息。
单击预置数据集卡片,可查看预置数据集详情。包含基本信息和数据预览。
- 基本信息:预置数据集名称、模态、类型、样本数、数据集大小、描述信息等信息和数据集属性、行业、语言、标签等扩展信息。
图2 预置数据基本信息
- 数据预览:展示部分样例,支持分页查看、查看原始数据结构,非结构化数据(图像/音频)支持缩略预览。
图3 预置数据预览
我的数据
在控制台创建数据连接和数据精炼任务时,生成的数据集将作为数据资产放置在我的数据列表。
数据连接和数据精炼任务配置“立即上线数据集”选项,生成的数据集将自动上线为资产。如果没有勾选,则在资产清单是未上线的状态。具体上下线操作如下:
- 在左侧导航栏中选择“资产管理 > 数据”,在右侧“数据”工作区能够查看所有数据集和前用户自己创建的资产列表,也可以按照数据集名称、数据模态、数据集类型、上线状态、创建者维度过滤数据集资产。
图4 过滤数据集资产
- 选择一个数据集,在“操作”列支持如下操作:
- 上线。未上线的数据集支持上线。单击“上线”,在弹出的对话框确认后,数据集完成上线。上线后的数据集能够作为后续开发的数据。
- 下线。已上线的数据集支持下线。单击“下线”,在弹出的对话框确认后,数据集完成下线。下线后的数据集不能作为后续开发的数据。
- 删除。数据集可被删除。删除后的数据集不是彻底删除,为避免误删,如果还想再继续使用,可以恢复数据集。对于已删除的数据,可以选择彻底删除,彻底删除后的数据集不可恢复。
图5 已删除数据集
图6 已删除数据集可恢复或彻底删除
- 恢复。对于已经删除的数据集,可以通过该选项恢复数据集。
- 在我的数据列表选择一条数据,可查看该数据详情。包含基本信息、数据预览和操作记录。
- 基本信息:预置数据集名称、模态、类型、样本数、数据集大小、描述信息等信息和数据集属性、行业、语言、标签等扩展信息。
- 数据预览:展示3-5条典型样例,支持分页查看、查看原始数据结构,非结构化数据(图像/音频)支持缩略预览。
- 操作记录:记录当前数据资产所有操作记录(见步骤2),明确该数据的操作全过程。