特征离散化_特征操作-华为云

特征操作

单击表头，选中需要执行归一化的特征列。单击“特征操作”，从下拉框中选择“归一化”。弹出“归一化”对话框。参数配置如下所示：检查“已选择特征”是否为用户选择的特征列。配置“归一化算法”。单击“确定”。在“特征操作流总览”区域会新增一个“归一化”节点。数值化很多情况下样本数据并不是数

来自：帮助中心

查看更多 →
数据转换

如果存在多个数据操作流，可重命名操作流对象的变量名，以避免冲突。单击图标，运行“归一化”代码框内容。数值化如果特征不是数值型，不利于模型训练。可以通过数值化将其转换为数值型。数值化的思路是根据特征列的样本数据的种类进行编码，数值化后样本数据为取值范围在[0,样本数据种类-1]区间内的整型数据。操作步骤如下所示。

来自：帮助中心

查看更多 →
基本概念

某业务下具有相同数据格式的数据逻辑集合。特征操作特征操作主要是对数据集进行特征处理。在旧版体验式开发模式下，模型训练服务支持的特征操作有重命名、归一化、数值化、标准化、特征离散化、One-hot编码、数据变换、删除列、选择特征、卡方检验、信息熵、新增特征、PCA。对应JupyterLa

来自：帮助中心

查看更多 →
特征工程

小值为4，最大值为12，区间名称为“少儿”，则按照用户自定义的区间进行离散。 “不离散”：（默认）不做归一化，不对数据做处理。归一化，根据业务需求限定数值“最小值”和“最大值”。例如，根据weight进行归一化，设置weight最小值为50，最大值为200。如果给定的数值x在该区

来自：帮助中心

查看更多 →
排序策略-离线特征工程

参数信息如下： “等距离散”：根据业务需求限定数值“最小值”、“最大值”和“距离”。例如，根据age进行等距离散，设置年龄最小值为1，最大值为100，离散距离为10。等距离散会按照age将1-10岁，11-20岁等作为一个区间进行离散。 “归一化”：归一化，根据业务需求限定数值“

来自：帮助中心

查看更多 →
特征选择

特征选择删除列删除特征列的场景有很多，例如：两个特征呈线性变化关系，为减少模型训练的开销，删除其中一个特征列。操作步骤如下所示。单击界面右上角的图标，选择“数据处理 > 特征选择 > 删除列”，界面新增“删除列”内容。对应参数说明，如表1所示。表1 参数说明参数参数说明

来自：帮助中心

查看更多 →
筛选特征

筛选特征样本对齐执行完成后单击下一步进入“特征选择”页面，这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。企业A可以选择特征及标签后“启动分箱和IV计算”，通过联邦的统计算法计算出所选特征的iv值，一般而言iv值较高的特征更有区分性，应该作为首选的训练

来自：帮助中心

查看更多 →
产品术语

数据集的实例，有具体的数据。 T 特征操作特征操作主要是对数据集进行特征处理。在旧版体验式开发模式下，模型训练服务支持的特征操作有重命名、归一化、数值化、标准化、特征离散化、One-hot编码、数据变换、删除列、选择特征、卡方检验、信息熵、新增特征、PCA。对应JupyterLa

来自：帮助中心

查看更多 →
开发数据预处理作业

预处理方法（转换函数）将特征数据转换成更加适合算法模型的特征数据。当前 TICS 支持的特征预处理方法如表1所示。对于一个字段，可以添加多种预处理方法，并且建议按照如下处理顺序进行编排：连续型字段：缺失值处理>特征缩放、缺失值处理>标准化、异常值处理>标准化、缺失值处理>异常值处理>Log变换等

来自：帮助中心

查看更多 →
特征画像

特征画像特征画像的作用，就是对数据进行分析，把其中一些基本特征提取出来，如：周期性、离散度、时序规律、最值、采样频率等，计算KPI曲线特点（包括周期性、趋势性、噪声、离散性、随机性等）。根据计算的曲线特点，判断KPI的大类别（毛刺型、阶梯型、周期型、离散型、稀疏型、多模态型等）

来自：帮助中心

查看更多 →
呼叫特征

呼叫特征表1 呼叫特征说明值说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助父主题：附录

来自：帮助中心

查看更多 →
特征工程

特征工程特征工程中已经预置了两个特征处理工程，这里暂不使用，会提供端到端的操作流程，帮助用户快速熟悉特征工程界面操作。如果需要了解特征工程操作详情，可查看模型训练服务《用户指南》中的“特征工程”章节内容。无故障硬盘训练数据集特征处理单击菜单栏中的“特征工程”，进入特征工程首页，如图1所示。

来自：帮助中心

查看更多 →
特征操作接口

signature_type 是 String 特征类型。最小长度：1 最大长度：150 signature_name 否 String 特征名称。 signature_attributes 否 Array of 表4 objects 特征属性。表4 MetadataAttributeRequest

来自：帮助中心

查看更多 →
创建数据集

结构化数据是指具有标准化行、列数据属性的数据，例如sql、csv数据等。配置结构化数据集时，需要注意以下几点：选择数据文件：仅本地连接器需要配置。数据文件仅支持csv文件和数据目录两种形式。选择数据目录时，必须保证目录下至少包含一个csv文件，且所有csv文件的特征数保持

来自：帮助中心

查看更多 →
特征工程

特征工程如何选中全量特征列？算法工程处理的时候必须要先采样吗？特征处理操作完成后怎么应用于数据集全量数据？特征工程和算法工程的关系？ JupyterLab环境异常怎么处理？父主题：常见问题

来自：帮助中心

查看更多 →
特征工程

特征工程特征工程简介 Python和Spark开发平台 JupyterLab开发平台父主题：用户指南

来自：帮助中心

查看更多 →
特征管理

特征管理特征操作接口父主题：应用模型

来自：帮助中心

查看更多 →
全局特征信息文件

全局特征信息文件在特征工程、在线模块，近线模块时都会用到该全局的特征信息文件。当上传的数据中的特征有变化时，用户需要同步更新该文件。该文件为JSON格式，包含特征名、特征大类、特征值类型。表1 全局特征信息文件字段描述字段名类型描述是否必选 user_features

来自：帮助中心

查看更多 →
提交特征工程作业

所有输出数据（用户物品特征、特征映射、域特征值数目统计结果、训练集、测试集）的存储都路径，文件夹。全局特征配置文件路径(global_features_information_path) 是 String 该文件为JSON格式，包含特征名、特征大类、特征值类型。全局特征文件详细内容可以通过查询全局特征配置获取。

来自：帮助中心

查看更多 →
特征工程简介

特征工程简介用户可以通过特征工程对数据集进行数据处理、特征组合、特征转换等特征处理，最大限度的从原始数据中提取特征以供模型训练使用。此外，用户还可以将优质的特征工程发布成服务，以服务的形式对具备完全相同特征的数据进行预处理。特征工程相关的基本概念：特征工程：对数据进行特征处理操作的工程。

来自：帮助中心

查看更多 →
功能特性

取证分析：采集和存储终端信息，并通过数据挖掘、关联分析等方法，对威胁事件进行取证分析。攻击可视化：通过HiSec Endpoint Agent数字化建模、溯源推理算法，实现攻击可视化，精准还原威胁攻击链路。父主题：产品介绍

来自：帮助中心

查看更多 →