文档首页 > > 自动学习用户指南> 预测分析> 准备数据

准备数据

分享
更新时间:2020/07/06 GMT+08:00

使用ModelArts自动学习构建预测分析模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。

数据上传至OBS

本次操作将使用OBS客户端上传数据,OBS创建桶以及上传文件的更多操作方式及指导,请参见创建桶上传对象

执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。

  1. 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。
  2. 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。

数据集要求

  • 文件规范:名称由以字母数字及中划线下划线组成,以'.csv'结尾,且文件不能直接放在OBS桶的根目录下,应该存放在OBS桶的文件夹内。如:“/obs-xxx/data/input.csv”
  • 文件内容:文件保存为“csv”文件格式,文件内容以换行符(即字符“\n”,或称为LF)分隔各行,行内容以英文逗号(即字符“,”)分隔各列。文件内容不能包含中文字符,列内容不应包含英文逗号、换行符等特殊字符,不支持引号语法,建议尽量以字母及数字字符组成。
  • 训练数据:训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。如果某一列的取值只有一种,会被视为无效列并舍去,请保证除标签列外,数据集至少包含两列有效列。若用户选择标签列为连续数值时,需要保证该列内容为数字且在训练数据中的有不少于25个不同值。训练数据的csv文件不能包含表头,否则会导致训练失败。

OBS上传文件规范

预测分析项目的OBS数据路径需符合以下规则:

  • 输入数据的OBS路径应指向数据文件,且文件不能直接放在OBS桶的根目录下,应该存放在OBS桶的文件夹内。如:“/obs-xxx/data/input.csv”
  • 输入数据的格式必须为csv格式,数据文件不包括表头,有效数据行数必须大于150行。

预测分析文件内容示例

以银行客户为例:根据客户特征,预测客户是否愿意办理定期存款业务。
表1 数据源的具体字段及意义

字段名

含义

类型

描述

attr_1

年龄

Int

表示客户的年龄。

attr_2

职业

String

表示客户所从事的职业。

attr_3

婚姻情况

String

表示客户是否结婚或已离异。

attr_4

教育情况

String

表示客户受教育的程度。

attr_5

房产情况

String

表示客户名下是否有房产。

attr_6

贷款情况

String

表示客户名下是否有贷款。

attr_7

存款情况

String

表示客户名下是否有存款。

表2 样本数据

attr_1

attr_2

attr_3

attr_4

attr_5

attr_6

attr_7

58

management

married

tertiary

yes

no

no

44

technician

single

secondary

yes

no

no

33

entrepreneur

married

secondary

yes

yes

no

47

blue-collar

married

unknown

yes

no

no

33

unknown

single

unknown

no

no

no

35

management

married

tertiary

yes

no

no

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问