发布数据版本
- 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理 > 数据集”,进入“数据集”管理页面
- 在数据集列表中,单击操作列的“发布”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“发布”。
- 在“发布新版本”弹出框中,填写发布数据集的相关参数,然后单击“确定”。
表1 发布数据集的参数说明 参数
描述
“版本名称”
默认按V001、V002递增规则进行命名,您也可以自定义版本名称。版本名称只能包含字母、数字、中划线或下划线。
“版本格式”
仅“表格”类型数据集支持设置版本格式,支持“CSV”和“CarbonData”两种。
说明:如果导出的CSV文件中存在以“=”“+”“-”和“@”开头的命令时,为了安全考虑,ModelArts会自动加上Tab键,并对双引号进行转义处理。
“数据切分”
仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。
默认不启用。启用后,需设置对应的训练验证比例。
输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。
说明:为确保训练模型的精度,建议将训练集比例设置为0.8或者0.9。
“训练集比例”即用于训练模型的样本数据比例;“验证集比例”即用于验证模型的样本数据比例。“训练验证比例”会影响训练模板的性能。
“描述”
针对当前发布的数据集版本的描述信息。
“开启难例属性”
仅“图像分类”和“物体检测”类型数据集支持难例属性。
默认不开启。启用后,会将此数据集的难例属性等信息写入对应的Manifest文件中。
数据集版本文件目录结构
由于数据集是基于OBS目录管理的,发布为新版本后,对应的数据集输出位置,也将基于新版本生成目录。
以图像分类为例,数据集发布后,对应OBS路径下生成,其相关文件的目录如下所示。
|-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- VersionMame2 ... |-- ...
以物体检测为例,如果数据集导入的是Manifest文件,在数据集发布后,其相关文件的目录结构如下。
|-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotation |-- file1.xml |-- VersionMame2 ... |-- ...
以视频标注为例,在数据集发布后,标注结果将标注结果文件(XML)存放在数据集输出目录下。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotations |-- images |-- videoName1 |-- videoName1.timestamp.xml |-- videoName2 |-- videoName2.timestamp.xml |-- VersionMame2 ... |-- ... |
视频标注的关键帧存在数据集的输入目录下。
|-- user-specified-input-path |-- images |-- videoName1 |-- videoName1.timestamp.jpg |-- videoName2 |-- videoName2.timestamp.jpg