机器学习数据处理和特征选择

特征选择

单击界面右上角的图标，选择“数据处理 > 特征选择 > 选择列”，界面新增“选择列”内容。对应参数说明，如表2所示。表2 参数说明参数参数说明列筛选方式特征列的筛选方式，有如下两种：列·选择正则匹配列名列筛选方式为“列选择”时展示，如果有多列特征数据需要保留，可单击“”同时选中多列特征名称。

来自：帮助中心

查看更多 →
机器无法选择？

机器无法选择？请确认机器状态是否正确，资源状态为运行中且UniAgent状态为运行中。 UniAgent安装可参考安装UniAgent。父主题：补丁管理常见问题

来自：帮助中心

查看更多 →
基本概念

可支持用户进行机器学习、深度学习、模型训练作业开发的框架，如Tensorflow、Spark MLlib、MXNet、PyTorch、华为自研AI框架MindSpore等。数据集某业务下具有相同数据格式的数据逻辑集合。特征操作特征操作主要是对数据集进行特征处理。在旧版体

来自：帮助中心

查看更多 →
可信智能计算服务 TICS

计算节点管理同一个空间中的用户，在使用可信计算服务时（联邦分析和联邦机器学习），需要部署计算节点，接入己方数据，作为可信计算服务的输入，通过执行联邦分析和联邦机器学习作业后，最终拿到结果。计算节点以容器的形式部署，支持云租户部署和边缘节点部署，用户可根据数据源的现状，采用合适的计算节点部署方案。

来自：帮助中心

查看更多 →
创建数据预处理作业

假设您有如下数据集（只展示部分数据），由于数据不够完整，如job、gender等字段均存在一定程度的缺失。为了不让机器理解形成偏差、以达到机器学习的使用标准，需要基于对数据的理解，对数据进行特征预处理。例如： job字段是多类别的变量，其值0、1、2实际没有大小之分，一般会将该特征转换成向量，如值为0用向量[1, 0

来自：帮助中心

查看更多 →
查询特征选择执行结果

"result_ext" : "" } 状态码状态码描述 200 查询执行结果成功 401 操作无权限 500 内部服务器错误父主题：可信联邦学习作业管理

来自：帮助中心

查看更多 →
产品术语

类建模数据集提供了五列数据：花瓣的长度和宽度、花萼的长度和宽度、鸢尾花种类。其中，鸢尾花种类就是标签列。 C 超参模型外部的参数，必须用户手动配置和调整，可用于帮助估算模型参数值。 M 模型包将模型训练生成的模型进行打包。可以基于模型包生成SHA256校验码、创建模型验证服务

来自：帮助中心

查看更多 →
概述

存储方式：是指计算节点部署时选择的存储方式，目前仅支持“主机存储”和“OBS存储”两种存储方式。前一种是指计算节点交互的数据存储在计算节点所在机器上，后一种是计算节点交互的数据存储在部署时选择的OBS桶中。数据目录：计算节点部署时选择的存储路径，用于 TICS 服务的数据和外部交互。用户只有

来自：帮助中心

查看更多 →
排序策略

分解后的表示特征的向量的长度。默认10。保存根路径单击选择训练结果在OBS中的保存根路径，训练完成后，会将模型和日志文件保存在该路径下。该路径不能包含中文。深度网络因子分解机-DeepFM 深度网络因子分解机，结合了因子分解机和深度神经网络对于特征表达的学习，同时学习高阶和低阶特

来自：帮助中心

查看更多 →
Standard自动学习

Standard自动学习 ModelArts通过机器学习的方式帮助不具备算法开发能力的业务开发者实现算法的开发，基于迁移学习、自动神经网络架构搜索实现模型自动生成，通过算法实现模型训练的参数自动化选择和模型自动调优的自动学习功能，让零AI基础的业务开发者可快速完成模型的训练和部署。 Mo

来自：帮助中心

查看更多 →
最新动态

模。公测创建纵向联邦学习作业 2 联盟和计算节点支持自助升级在实际应用中，升级、回滚是一个常见的场景，TI CS 能够很方便的支撑联盟和计算节点升级和回滚。回滚也称为回退，即当发现升级出现问题时，让联盟和计算节点自动回滚到老的版本。TICS已实现了在异常状态下的自动回滚。公测

来自：帮助中心

查看更多 →
特征操作

转换数目为2后，执行PCA后，系统会计算出2个涵盖信息最多的两个特征列。选择算法：PCA和KPCA。Spark开发平台不支持KPCA算法。单击“确定”，执行PCA。父主题： Python和Spark开发平台

来自：帮助中心

查看更多 →
特征画像

。这些类别，对应到后面的特征选择、算法推荐，会有不同的策略，有效提升模型的构建效率。单击“选择数据”左下方的“特征画像”。新增“特征画像”内容，如图1所示。图1 特征画像单击“特征画像”代码框左侧的图标，运行代码。通过运行结果左侧两个图可以直观的看一下原始数据和数据的密

来自：帮助中心

查看更多 →
呼叫特征

呼叫特征表1 呼叫特征说明值说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助父主题：附录

来自：帮助中心

查看更多 →
特征工程

特征工程如何选中全量特征列？算法工程处理的时候必须要先采样吗？特征处理操作完成后怎么应用于数据集全量数据？特征工程和算法工程的关系？ JupyterLab环境异常怎么处理？父主题：常见问题

来自：帮助中心

查看更多 →
特征工程

特征工程特征工程简介 Python和Spark开发平台 JupyterLab开发平台父主题：用户指南

来自：帮助中心

查看更多 →
特征管理

特征管理特征操作接口父主题：应用模型

来自：帮助中心

查看更多 →
筛选特征

筛选特征样本对齐执行完成后单击下一步进入“特征选择”页面，这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。企业A可以选择特征及标签后“启动分箱和IV计算”，通过联邦的统计算法计算出所选特征的iv值，一般而言iv值较高的特征更有区分性，应该作为首选的训练

来自：帮助中心

查看更多 →
提交排序任务API

分解机每个特征对其他域的隐向量都一致，而域感知因子分解机每个特征对其他每个域都会学习一个隐向量，能够达到更高的精度，但也更容易出现过拟合。FFM算法参数请参见域感知因子分解机。深度网络因子分解机，结合了因子分解机和深度神经网络对于特征表达的学习，同时学习高阶和低阶特征组合，从而

来自：帮助中心

查看更多 →
GS

ine执行计划时间预测功能时的数据表，记录机器学习模型的配置、训练结果、功能、对应系统函数、训练历史等相关信息。表1 GS_OPT_MODEL字段名称类型描述 template_name name 机器学习模型的模板名，决定训练和预测调用的函数接口，目前只实现了rlstm，方便后续扩展。

来自：帮助中心

查看更多 →
GS_OPT_MODEL

ine执行计划时间预测功能时的数据表，记录机器学习模型的配置、训练结果、功能、对应系统函数、训练历史等相关信息。表1 GS_OPT_MODEL字段名称类型描述 template_name name 机器学习模型的模板名，决定训练和预测调用的函数接口，目前只实现了rlstm，方便后续扩展。

来自：帮助中心

查看更多 →