可信智能计算服务 TICS
可信智能计算服务 TICS
- 最新动态
- 功能总览
- 产品介绍
- 快速入门
- 用户指南
- 最佳实践
- 开发指南
- API参考
-
常见问题
- 什么是区域和可用区?
- 什么是项目?
- 什么是配额?
- 一个CCE集群可以为同一用户的多个空间使用吗?
- 节点的可用资源如何查询?
- 合作方如何获取租户名称?
- 计算节点如何切换状态?
- 部署计算节点时,“状态”列长时间显示为“部署中”(超过20分钟),如何查看计算节点部署情况?
- 运行作业前,提示“Privacy rule verification failed”,怎么处理?
- 运行作业时,提示存在数据泄露风险,怎么处理?
- 为什么空间详情中“作业执行统计”实例数与空间作业中实例数统计不一致?
- 执行分析作业时,提示“节点内存不足,已拒绝在节点中运行该任务”,如何解决?
- 为什么我的计算结果每次计算时结果都不一样?
- 执行作业时,提示“启动新任务失败,服务器任务队列超出缓存长度”,如何解决?
- 联邦sql分析作业运行过慢,如何提升执行速度?
- 可信计算节点发生主备切换,原节点登录地址不可用,如何处理?
- 如何创建及查找sfs_turbo文件系统的ID?
- 如何确认在跨VPC的情况下计算节点与SFS_Turbo文件系统连通性
- 如何排查可信环境互信状态
- 边缘节点部署模式下创建节点,该如何配置资源分配策略?
- 创建数据集时,不允许使用哪些名字?
- 如何更换计算节点db私钥?
- 如何修改结果文件的权限?
- 执行联邦学习作业时,报“ERROR UNAVAILABLE:Network closed for unknown reason”,如何解决?
- 文档下载
- 通用参考
链接复制成功!
创建数据预处理作业
数据预处理是训练机器学习模型的一个重要前置步骤,其主要是通过转换函数将特征数据转换成更加适合算法模型的特征数据过程。TICS特征预处理功能能够实现对数据的探索、分析、规整以及转换,以达到数据在训练模型中可使用、可实用,在TICS平台内完成数据处理到建模的闭环。
假设您有如下数据集(只展示部分数据),由于数据不够完整,如job、gender等字段均存在一定程度的缺失。为了不让机器理解形成偏差、以达到机器学习的使用标准,需要基于对数据的理解,对数据进行特征预处理。例如:
- job字段是多类别的变量,其值0、1、2实际没有大小之分,一般会将该特征转换成向量,如值为0用向量[1, 0, 0]表示,1用向量[0,1,0]表示,2用向量[0, 0, 1]表示,此即为onehot编码。
- gender字段先填补缺失值,再将其映射成算法可以理解的数值型,比如将woman映射成0,man映射成1,此即为离散特征编码。
图1 数据集样例
![](https://support.huaweicloud.com/usermanual-tics/zh-cn_image_0000001747539029.png)
数据预处理通常被用于评估和预测场景。本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。
前提条件
- 已提前准备好训练数据,和评估/预测数据。
- 存在未参与其他预处理作业的结构化数据集,且在创建数据集时已定义字段的分布类型。注意预处理作业对数据集的发布状态无要求。
创建数据预处理作业
- 用户登录TICS控制台。
- 进入TICS控制台后,单击页面左侧“计算节点管理”,进入计算节点管理页面。
- 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。
图2 选择计算节点
- 在“计算节点详情”页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”和“密码”。
图3 前往计算节点
- 选择界面左侧“数据管理>数据预处理”,单击“创建”,可输入作业名称、描述及数据集,单击保存。若当前选不到目标数据集,可查看该数据集是否已参与其他的预处理作业。
说明:
目标数据集需要对所选字段的分布类型进行严格定义。处理评估/预测数据前建议先使用训练数据进行预处理,以确保当数据处理达到目标需求。
图4 创建数据预处理作业 - 单击“保存”后,可查看数据预处理作业。
图5 查看数据预处理作业
父主题: 数据预处理