机器学习的特征筛选_筛选特征-华为云

筛选特征

特征；过低的iv值没有区分性会造成训练资源的浪费，过高的iv值又过于突出可能会过度影响训练出来的模型。例如这里大数据厂商提供的f4特征iv值是0，说明这个特征对于标签的识别没有区分度，可以不选用；而f0、f2特征的iv值中等，适合作为模型的训练特征。根据计算得出的iv值，企业

来自：帮助中心

查看更多 →
最新动态

相关文档 1 纵向联邦学习纵向联邦机器学习，适用于参与者训练样本ID重叠较多，而数据特征重叠较少的情况，联合多个参与者的共同样本的不同数据特征进行联邦机器学习，联合建模。公测创建纵向联邦学习作业 2 联盟和计算节点支持自助升级在实际应用中，升级、回滚是一个常见的场景， TICS 能

来自：帮助中心

查看更多 →
特征选择

从下拉框中选择当前数据操作流的名字。操作流变量名如果存在多个数据操作流，可重命名操作流对象的变量名，以避免冲突。单击图标，运行“删除列”代码框内容。选择列如果数据的特征量大，而大多数特征对模型训练无效，可通过“选择列”保留仅对模型训练有意义的特征。操作步骤如下所示。单击界面右上角的图标，选择“数据处理

来自：帮助中心

查看更多 →
概述

征的多行样本进行可信联邦学习，联合建模。模型评估评估训练得出的模型权重在某一数据集上的预测输出效果。纵向联邦机器学习纵向联邦机器学习，适用于参与者训练样本ID重叠较多，而数据特征重叠较少的情况，联合多个参与者的共同样本的不同数据特征进行可信联邦学习，联合建模。概念术语

来自：帮助中心

查看更多 →
Standard自动学习

Standard自动学习 ModelArts通过机器学习的方式帮助不具备算法开发能力的业务开发者实现算法的开发，基于迁移学习、自动神经网络架构搜索实现模型自动生成，通过算法实现模型训练的参数自动化选择和模型自动调优的自动学习功能，让零AI基础的业务开发者可快速完成模型的训练和部署。 M

来自：帮助中心

查看更多 →
可信智能计算服务 TICS

据安全的前提下，利用多方数据实现的联合建模，曾经也被称为联邦机器学习。横向联邦机器学习横向联邦机器学习，适用于参与者的数据特征重叠较多，而样本ID重叠较少的情况，联合多个参与者的具有相同特征的多行样本进行联邦机器学习，联合建模。模型评估评估训练得出的模型权重在某一数据集上的预测输出效果。

来自：帮助中心

查看更多 →
特征操作

而用极少的几个特征来涵盖大部分的数据集信息。主成分分析认为，沿某特征分布的数据的方差越大，则该特征所包含的信息越多，也就是所谓的主成分。适用于线性可分的数据集。 KPCA：基于核函数的主成分分析。KPCA与PCA基本原理相同，只是需要先升维再进行投影，因为有些非线性可分的数据集只有在升维的视角下才线性可分。

来自：帮助中心

查看更多 →
特征画像

果右侧的参数说明，如表1所示。表1 特征画像参数说明参数说明设备数需要检测的KPI对象的数量，如设备或端口的数目。样本数训练数据总的样本数。采样率采样频率，单位为秒。60的含义为每60秒采样一次。开始时间采样的时间跨度。结束时间周期是否有周期的特性，给出评估的值。

来自：帮助中心

查看更多 →
呼叫特征

呼叫特征表1 呼叫特征说明值说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助父主题：附录

来自：帮助中心

查看更多 →
基本概念

在旧版体验式开发模式下，模型训练服务支持的特征操作有重命名、归一化、数值化、标准化、特征离散化、One-hot编码、数据变换、删除列、选择特征、卡方检验、信息熵、新增特征、PCA。对应JupyterLab交互式开发模式，是界面右上角的图标中的“数据处理”菜单下面的数据处理算子。模型包

来自：帮助中心

查看更多 →
适用于人工智能与机器学习场景的合规实践

CCE集群版本为停止维护的版本，视为“不合规” cce-cluster-oldest-supported-version CCE集群运行的非受支持的最旧版本 cce 如果CCE集群运行的是受支持的最旧版本（等于参数“最旧版本支持”），视为“不合规” cce-endpoint-public-access

来自：帮助中心

查看更多 →
特征工程

单击“创建”，界面新增“Harddisk”特征工程。等待特征工程的“环境信息”中的特征工程状态从“创建中”变更为“运行中”，即开发环境创建完成。单击特征工程“操作”列的图标，进入JupyterLab环境的“Launcher”界面。在左侧的代码目录中，可以看到系统自动为用户创建的与特征工程同名的算法工程目录

来自：帮助中心

查看更多 →
特征工程

得超过行为数据的时间范围。测试数据时间：测试数据起始时间和终止时间，该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数据占比：生成的结果中，训练集占整个训练集和测试集的比例，默认0.7。测试数据占比：生成的结果中，训练集占整个训练集和测试集的比例，默认0.3。

来自：帮助中心

查看更多 →
特征操作接口

项目ID，获取方法请参考获取项目ID。 instance_id 是 String 实例的ID。最小长度：1 最大长度：64 请求参数表2 请求Body参数参数是否必选参数类型描述 package_id 是 String 模型包ID。最小长度：1 最大长度：50 entity_urn

来自：帮助中心

查看更多 →
列筛选

筛选成功后，在特征工程操作界面可以单击图标查看筛选历史，筛选记录内的规则名即为此处设置的筛选规则名称，单击筛选历史记录内的筛选规则名可以查看对应的筛选结果。可选特征：展示当前数据的所有特征信息。已选特征：展示用户在“可选特征”中勾选出的所有特征，支持删除已选特征。在“可选特征”框中勾选需要显示的特征列。

来自：帮助中心

查看更多 →
特征工程

特征工程如何选中全量特征列？算法工程处理的时候必须要先采样吗？特征处理操作完成后怎么应用于数据集全量数据？特征工程和算法工程的关系？ JupyterLab环境异常怎么处理？父主题：常见问题

来自：帮助中心

查看更多 →
特征工程

特征工程特征工程简介 Python和Spark开发平台 JupyterLab开发平台父主题：用户指南

来自：帮助中心

查看更多 →
特征管理

特征管理特征操作接口父主题：应用模型

来自：帮助中心

查看更多 →
筛选资源

直接在搜索框列表中选择一个标签键，然后再选择此标签键相关的一个标签值或所有标签值，资源列表将自动筛选并展示此标签关联的资源。企业项目通过企业项目筛选框选择企业项目，资源列表将自动筛选并展示此企业项目下的资源。说明：根据企业项目筛选资源的功能必须要先开通企业项目才可以使用，因此该筛选条件并非对每个用户可见。

来自：帮助中心

查看更多 →
提交排序任务API

域感知因子分解机是因子分解机的改进版本，因子分解机每个特征对其他域的隐向量都一致，而域感知因子分解机每个特征对其他每个域都会学习一个隐向量，能够达到更高的精度，但也更容易出现过拟合。FFM算法参数请参见域感知因子分解机。深度网络因子分解机，结合了因子分解机和深度神经网络对于特征表达的学习，同时学习

来自：帮助中心

查看更多 →
GS

model_name name 模型的实例名，每个模型对应AiEngine在线学习进程中的一套参数、训练日志、模型系数。此列需为unique。 datname name 该模型所服务的database名，每个模型只针对单个database。此参数决定训练时所使用的数据。 ip name AiEngine端所部署的host

来自：帮助中心

查看更多 →