我的数据
在控制台创建数据连接和数据精炼任务时,生成的数据集将作为数据资产放置在我的数据列表。如果创建数据连接和数据精炼任务配置“立即上线数据集”选项,生成的数据集将自动上线为资产。如果没有勾选,则在资产清单是未上线的状态。
使用场景
我的数据典型使用场景如下:
- 使用我的数据集完成数据精炼,生成下游需要数据集。
- 使用我的数据集完成大模型预训练与微调,提升模型基础能力,通过人类偏好数据优化模型响应质量。
- 作为我的数据集作为测试集评估模型性能,完成模型能力基线评估。
约束限制
- 仅西南-贵阳一区域的新版控制台支持。
操作指南
- 前往ModelArts管理控制台,
- 在左侧导航栏中选择“资产管理 > 数据 > 我的数据”,能够查看所有数据集和前用户自己创建的资产列表,也可以按照数据集名称、数据模态、数据集类型、上线状态、创建者维度过滤数据集资产。
图1 过滤数据集资产
- 单击搜索栏右侧“
”图标,在右侧弹出的网页,可以设置搜索栏。可配置内容如表1所示。
表1 我的数据清单配置 配置项
配置参数
配置说明
基础设置
表格内容折行
打开自动折行开关,单条数据资产项会扩行,数据信息能够完全展示。关闭开关,数据资产项不会扩行,数据信息可能显示不全。
表格数据列固定
- 不固定:数据资产记录如果超长支持拖动时,数据列均可拖动。
- 固定第一列:数据资产记录如果超长支持拖动时,数据列第一列会冻结,其余数据列可拖动。
- 固定前两列:数据资产记录如果超长支持拖动时,数据列第一列第二列会冻结,其余数据列可拖动。
表格操作列固定
勾选固定操作列后,操作列固定在最后一列永久展示,不能调整操作列宽。
自定义显示列
设置展示清单选项
勾选需要展示的列名。数据集名称和操作是默认展示列,其余选项可以勾选是否展示。数据列名支持拖动调整顺序。
图2 设置选项
- 选择一个数据集,在“操作”列支持如下操作:
- 上线。未上线的数据集支持上线操作。单击“上线”,在弹出的对话框确认后,数据集完成上线。上线后的数据集能够作为后续开发的数据。
- 下线。已上线的数据集支持下线操作。单击“下线”,在弹出的对话框确认后,数据集完成下线。下线后的数据集不能作为后续开发的数据。
- 删除。数据集可被删除。删除后的数据集不是彻底删除,为避免误删,如果还想再继续使用,可以恢复数据集。对于已删除的数据,可以选择彻底删除,彻底删除后的数据集不可恢复。
图3 已删除数据集
图4 已删除数据集可恢复或彻底删除
- 恢复。对于已经删除的数据集,可以通过该选项恢复数据集。
数据资产详情管理
数据资产详情页面展示了当前数据集详细信息。在数据集工作区,单击任意数据集名称,就进入该数据集的详情页面。该页面有基本信息、数据预览和操作记录三个子页面,以下分别说明页面的作用和涉及的操作。在该页面右上角可以删除数据集。单击删除后,该数据集将彻底删除,请谨慎操作。
- 基本信息。包含资产的信息如下:
- 数据详情:资产数据集名称、模态、类型、样本数、数据集大小、描述信息、创建者、存储位置等信息。
- 数据来源:数据资产生是什么任务生成,可以在来源任务ID链接到生成该数据的任务。
- 扩展信息:数据资产的属性及版权信息,支持手动修改该信息。
图5 数据资产基本信息
- 数据预览。数据预览能够支持文本、表格类结构化数据展示3-5条典型样例,支持分页查看、查看原始数据结构,非结构化数据(图像/音频)支持缩略预览。支持数据集下载操作。
图6 数据资产预览
- 操作记录。在该界面可以查看“操作记录”。操作记录会记录当前数据集做过的所有操作。
图7 数据资产操作记录