更新时间:2024-04-01 GMT+08:00
准备数据
使用ModelArts自动学习构建预测分析模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。
数据上传至OBS
在本文档中,采用管理控制台上传数据至OBS。
执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。
- 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。
- 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。
在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
数据集要求
- 文件规范:名称由以字母数字及中划线下划线组成,以'.csv'结尾,且文件不能直接放在OBS桶的根目录下,应该存放在OBS桶的文件夹内。如:“/obs-xxx/data/input.csv”。
- 文件内容:文件保存为“csv”文件格式,文件内容以换行符(即字符“\n”,或称为LF)分隔各行,行内容以英文逗号(即字符“,”)分隔各列。文件内容不能包含中文字符,列内容不应包含英文逗号、换行符等特殊字符,不支持引号语法,建议尽量以字母及数字字符组成。
- 训练数据:
- 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。
- 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。
- 如果某一列的取值只有一种,会被视为无效列。请确保标签列的取值至少有两个且无数据缺失。
标签列指的是在训练任务中被指定为训练目标的列,即最终通过该数据集训练得到模型时的输出(预测项)。
- 除标签列外数据集中至少还应包含两个有效特征列(列的取值至少有两个且数据缺失比例低于10%)。
- 训练数据的csv文件不能包含表头,否则会导致训练失败。
- 当前由于特征筛选算法限制,标签列建议放在数据集最后一列,否则可能导致训练失败。
OBS上传文件规范
预测分析项目的OBS数据路径需符合以下规则:
- 输入数据的OBS路径应指向数据文件,且文件不能直接放在OBS桶的根目录下,应该存放在OBS桶的文件夹内。如:“/obs-xxx/data/input.csv”。
- 输入数据的格式必须为csv格式,数据文件不包括表头,有效数据行数必须大于100行。列数必须小于200列,数据总大小不能超过100MB。
预测分析文件内容示例
以鸢尾花数据集为例:根据鸢尾花的花萼与花瓣长宽,预测鸢尾花的品种。
字段名 |
含义 |
类型 |
描述 |
---|---|---|---|
attr_1 |
萼长 |
Double |
花萼的长度 |
attr_2 |
萼宽 |
Double |
花萼的宽度 |
attr_3 |
瓣长 |
Double |
花瓣的长度 |
attr_4 |
瓣宽 |
Double |
花瓣的宽度 |
attr_5 |
品种 |
String |
鸢尾花的品种 |
attr_1 |
attr_2 |
attr_3 |
attr_4 |
attr_5 |
---|---|---|---|---|
5.1 |
3.5 |
1.4 |
0.2 |
Iris-setosa |
7 |
3.2 |
4.7 |
1.4 |
Iris-versicolor |
6.3 |
3.3 |
6 |
2.5 |
Iris-virginica |
父主题: 预测分析