机器学习特征离散化_基本概念-华为云

基本概念

在旧版体验式开发模式下，模型训练服务支持的特征操作有重命名、归一化、数值化、标准化、特征离散化、One-hot编码、数据变换、删除列、选择特征、卡方检验、信息熵、新增特征、PCA。对应JupyterLab交互式开发模式，是界面右上角的图标中的“数据处理”菜单下面的数据处理算子。模型包

来自：帮助中心

查看更多 →
创建数据预处理作业

假设您有如下数据集（只展示部分数据），由于数据不够完整，如job、gender等字段均存在一定程度的缺失。为了不让机器理解形成偏差、以达到机器学习的使用标准，需要基于对数据的理解，对数据进行特征预处理。例如： job字段是多类别的变量，其值0、1、2实际没有大小之分，一般会将该特征转换成向量，如值为0用向量[1, 0

来自：帮助中心

查看更多 →
产品术语

数据集的实例，有具体的数据。 T 特征操作特征操作主要是对数据集进行特征处理。在旧版体验式开发模式下，模型训练服务支持的特征操作有重命名、归一化、数值化、标准化、特征离散化、One-hot编码、数据变换、删除列、选择特征、卡方检验、信息熵、新增特征、PCA。对应JupyterLa

来自：帮助中心

查看更多 →
可信智能计算服务 TICS

化云上自动化容器运行环境搭建。边缘节点部署：基于智能边缘平台（IEF，Intelligent EdgeFabric）服务部署，IEF通过纳管您的边缘节点，提供将云上应用延伸到边缘的能力，联动边缘和云端的数据，满足客户对边缘计算资源的远程管控、数据处理、分析决策、智能化的诉求。同

来自：帮助中心

查看更多 →
Standard自动学习

Standard自动学习 ModelArts通过机器学习的方式帮助不具备算法开发能力的业务开发者实现算法的开发，基于迁移学习、自动神经网络架构搜索实现模型自动生成，通过算法实现模型训练的参数自动化选择和模型自动调优的自动学习功能，让零AI基础的业务开发者可快速完成模型的训练和部署。

来自：帮助中心

查看更多 →
特征工程

小值为4，最大值为12，区间名称为“少儿”，则按照用户自定义的区间进行离散。 “不离散”：（默认）不做归一化，不对数据做处理。归一化，根据业务需求限定数值“最小值”和“最大值”。例如，根据weight进行归一化，设置weight最小值为50，最大值为200。如果给定的数值x在该区

来自：帮助中心

查看更多 →
特征操作

在“特征操作流总览”区域会新增一个“标准化”节点。特征离散化特征离散化是将特征列连续的样本数据离散化为[0，离散数量-1]区间内的整型数据。特征离散化操作步骤如下。单击表头，选中需要执行特征离散化的特征列。选中的特征列必须为数值型。单击“特征操作”，从下拉框中选择“特征离散化”。弹出“特征离散化”对话框。参数配置如下所示：

来自：帮助中心

查看更多 →
排序策略-离线特征工程

“等距离散”：根据业务需求限定数值“最小值”、“最大值”和“距离”。例如，根据order_price进行等距离散，设置价格最小值为1，最大值为100，离散距离为10。那么等距离散会按照价格将1-10元，11-20元等为一个区间进行离散。 “归一化”：归一化，根据业务需求限定数值“最小

来自：帮助中心

查看更多 →
数据转换

冲突。单击图标，运行“数值化”代码框内容。特征离散化特征离散化是将特征列连续的样本数据离散化为[0，离散数量-1]区间内的整型数据。操作步骤如下所示。单击界面右上角的图标，选择“数据处理 > 数据转换 > 特征离散化”，界面新增“特征离散化”内容。对应参数说明，如表4所示。

来自：帮助中心

查看更多 →
概述

同特征的多行样本进行可信联邦学习，联合建模。模型评估评估训练得出的模型权重在某一数据集上的预测输出效果。纵向联邦机器学习纵向联邦机器学习，适用于参与者训练样本ID重叠较多，而数据特征重叠较少的情况，联合多个参与者的共同样本的不同数据特征进行可信联邦学习，联合建模。概念术语

来自：帮助中心

查看更多 →
创建纵向联邦学习作业

在左侧导航树上依次选择“作业管理 > 可信联邦学习”，打开可信联邦学习作业页面。在“可信联邦学习”页面，单击“创建”。图1 创建作业在弹出的对话框中单击“纵向联邦”按钮，编辑“作业名称”等相关参数，完成后单击“确定”。目前，纵向联邦学习支持“XGBoost”、“逻辑回归”、“F

来自：帮助中心

查看更多 →
开发数据预处理作业

预处理方法（转换函数）将特征数据转换成更加适合算法模型的特征数据。当前 TICS 支持的特征预处理方法如表1所示。对于一个字段，可以添加多种预处理方法，并且建议按照如下处理顺序进行编排：连续型字段：缺失值处理>特征缩放、缺失值处理>标准化、异常值处理>标准化、缺失值处理>异常值处理>Log变换等

来自：帮助中心

查看更多 →
特征画像

特征画像特征画像的作用，就是对数据进行分析，把其中一些基本特征提取出来，如：周期性、离散度、时序规律、最值、采样频率等，计算KPI曲线特点（包括周期性、趋势性、噪声、离散性、随机性等）。根据计算的曲线特点，判断KPI的大类别（毛刺型、阶梯型、周期型、离散型、稀疏型、多模态型等）

来自：帮助中心

查看更多 →
呼叫特征

呼叫特征表1 呼叫特征说明值说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助父主题：附录

来自：帮助中心

查看更多 →
最新动态

公测联盟管理计算节点管理 3 联盟和计算节点部署过程可视化清晰展示联盟、计算节点的部署、升级、回滚、删除步骤，在出现问题时便于分析排查。公测联盟操作可视化计算节点操作可视化 2021年1月序号功能名称功能描述阶段相关文档 1 计算节点支持生命周期管理新增计算节

来自：帮助中心

查看更多 →
创建数据集

结构化数据是指具有标准化行、列数据属性的数据，例如sql、csv数据等。配置结构化数据集时，需要注意以下几点：选择数据文件：仅本地连接器需要配置。数据文件仅支持csv文件和数据目录两种形式。选择数据目录时，必须保证目录下至少包含一个csv文件，且所有csv文件的特征数保持

来自：帮助中心

查看更多 →
特征选择

特征选择删除列删除特征列的场景有很多，例如：两个特征呈线性变化关系，为减少模型训练的开销，删除其中一个特征列。操作步骤如下所示。单击界面右上角的图标，选择“数据处理 > 特征选择 > 删除列”，界面新增“删除列”内容。对应参数说明，如表1所示。表1 参数说明参数参数说明

来自：帮助中心

查看更多 →
排序策略

。初始化方法模型参数的初始化方法。 normal：正态分布平均值：默认0 标准差：0.001 uniform ：均匀分布最小值：默认-0.001，均匀分布的最小值，必须小于最大值。最大值：默认0.001，均匀分布的最大值，必须大于最小值。 xavier：初始化初始值为

来自：帮助中心

查看更多 →
筛选特征

根据计算得出的iv值，企业A调整了训练使用的特征，没有选用双方提供的特征全集，去掉了部分iv值较低的特征，减少了无用的计算消耗。父主题：使用TI CS 可信联邦学习进行联邦建模

来自：帮助中心

查看更多 →
特征工程

特征工程如何选中全量特征列？算法工程处理的时候必须要先采样吗？特征处理操作完成后怎么应用于数据集全量数据？特征工程和算法工程的关系？ JupyterLab环境异常怎么处理？父主题：常见问题

来自：帮助中心

查看更多 →
特征工程

特征工程特征工程简介 Python和Spark开发平台 JupyterLab开发平台父主题：用户指南

来自：帮助中心

查看更多 →