更新时间:2024-05-10 GMT+08:00
分享

创建数据预处理作业

数据预处理是训练机器学习模型的一个重要前置步骤,其主要是通过转换函数将特征数据转换成更加适合算法模型的特征数据过程。TICS特征预处理功能能够实现对数据的探索、分析、规整以及转换,以达到数据在训练模型中可使用、可实用,在TICS平台内完成数据处理到建模的闭环。

假设您有如下数据集(只展示部分数据),由于数据不够完整,如job、sex等字段均存在一定程度的缺失。为了不让机器理解形成偏差、以达到机器学习的使用标准,需要基于对数据的理解,对数据进行特征预处理。例如:

  • job字段是多类别的变量,其值0、1、2实际没有大小之分,一般会将该特征转换成向量,如值为0用向量[1, 0, 0]表示,1用向量[0,1,0]表示,2用向量[0, 0, 1]表示,此即为onehot编码。
  • sex字段先填补缺失值,再将其映射成算法可以理解的数值型,比如将woman映射成0,man映射成1,此即为离散特征编码。
图1 数据集样例

数据预处理通常被用于评估和预测场景。本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。

前提条件

  • 已提前准备好训练数据,和评估/预测数据。
  • 存在未参与其他预处理作业的结构化数据集,且在创建数据集时已定义字段的分布类型。注意预处理作业对数据集的发布状态无要求。

创建数据预处理作业

  1. 用户登录TICS控制台。
  2. 进入TICS控制台后,单击页面左侧计算节点管理,进入计算节点管理页面。
  3. “计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图2 选择计算节点

  4. 计算节点详情页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”“密码”

    图3 前往计算节点

  5. 选择界面左侧“数据管理>数据预处理”,单击“创建”,可输入作业名称、描述及数据集,单击保存。若当前选不到目标数据集,可查看该数据集是否已参与其他的预处理作业。

    目标数据集需要对所选字段的分布类型进行严格定义。处理评估/预测数据前建议先使用训练数据进行预处理,以确保当数据处理达到目标需求。

    图4 创建数据预处理作业

  6. 单击“保存”后,可查看数据预处理作业。

    图5 查看数据预处理作业

分享:

    相关文档

    相关产品