特征离散化 更多内容
  • 离散特征分析

    离散特征分析 概述 离散特征分析通过每个离散特征的gini,entropy,gini gain,information gain,information gain ratio等和每个离散值对应的gini,entropy指标,方便对离散特征进行理解。 输入 参数 子参数 参数说明

    来自:帮助中心

    查看更多 →

  • 离散化

    离散 概述 根据用户输入的桶的个数,按照分位数分桶,将用户指定的某个数值列离散。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明 参数 子参数 参数说明

    来自:帮助中心

    查看更多 →

  • 特征操作

    单击表头,选中需要执行归一特征列。 单击“特征操作”,从下拉框中选择“归一”。 弹出“归一”对话框。参数配置如下所示: 检查“已选择特征”是否为用户选择的特征列。 配置“归一算法”。 单击“确定”。 在“特征操作流总览”区域会新增一个“归一”节点。 数值 很多情况下样本数据并不是数

    来自:帮助中心

    查看更多 →

  • 数据转换

    如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。 单击图标,运行“归一”代码框内容。 数值 如果特征不是数值型,不利于模型训练。可以通过数值将其转换为数值型。数值的思路是根据特征列的样本数据的种类进行编码,数值后样本数据为取值范围在[0,样本数据种类-1]区间内的整型数据。 操作步骤如下所示。

    来自:帮助中心

    查看更多 →

  • 基本概念

    某业务下具有相同数据格式的数据逻辑集合。 特征操作 特征操作主要是对数据集进行特征处理。 在旧版体验式开发模式下,模型训练服务支持的特征操作有重命名、归一、数值、标准特征离散化、One-hot编码、数据变换、删除列、选择特征、卡方检验、信息熵、新增特征、PCA。对应JupyterLa

    来自:帮助中心

    查看更多 →

  • 特征工程

    小值为4,最大值为12,区间名称为“少儿”,则按照用户自定义的区间进行离散。 “不离散”:(默认)不做归一,不对数据做处理。归一,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一,设置weight最小值为50,最大值为200。如果给定的数值x在该区

    来自:帮助中心

    查看更多 →

  • 排序策略-离线特征工程

    参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据age进行等距离散,设置年龄最小值为1,最大值为100,离散距离为10。等距离散会按照age将1-10岁,11-20岁等作为一个区间进行离散。 “归一”:归一,根据业务需求限定数值“

    来自:帮助中心

    查看更多 →

  • 过滤式特征选择

    Lasso:采用Lasso回归计算特征重要性; "" select_feature_num 是 选择的TopN个特征,如果大于输入特征数,则输出所以特征 None discretization_method 否 离散连续特征方法,取值如下: equidistant division:根据特征的最小、最大值等距离分隔

    来自:帮助中心

    查看更多 →

  • 特征工程

    特征工程 二值 卡方选择 派生 特征转换 FP-growth 最小最大规范 正则 独热编码 主成分分析 离散 标准 字符串标签 奇异值分解 过滤式特征选择 线性特征重要性 特征尺度变换 特征异常检测 特征异常平滑 gbdt编码模型训练 gbdt编码模型应用 父主题: 数据特征

    来自:帮助中心

    查看更多 →

  • 特征选择

    特征选择 删除列 删除特征列的场景有很多,例如:两个特征呈线性变化关系,为减少模型训练的开销,删除其中一个特征列。 操作步骤如下所示。 单击界面右上角的图标,选择“数据处理 > 特征选择 > 删除列”,界面新增“删除列”内容。 对应参数说明,如表1所示。 表1 参数说明 参数 参数说明

    来自:帮助中心

    查看更多 →

  • 开发数据预处理作业

    预处理方法(转换函数)将特征数据转换成更加适合算法模型的特征数据。当前 TICS 支持的特征预处理方法如表1所示。对于一个字段,可以添加多种预处理方法,并且建议按照如下处理顺序进行编排: 连续型字段:缺失值处理>特征缩放、缺失值处理>标准、异常值处理>标准、缺失值处理>异常值处理>Log变换等

    来自:帮助中心

    查看更多 →

  • 产品术语

    数据集的实例,有具体的数据。 T 特征操作 特征操作主要是对数据集进行特征处理。 在旧版体验式开发模式下,模型训练服务支持的特征操作有重命名、归一、数值、标准特征离散化、One-hot编码、数据变换、删除列、选择特征、卡方检验、信息熵、新增特征、PCA。对应JupyterLa

    来自:帮助中心

    查看更多 →

  • 数据特征

    数据特征 数据分析 数据处理 特征工程 父主题: 预置算子说明

    来自:帮助中心

    查看更多 →

  • 特征画像

    特征画像 特征画像的作用,就是对数据进行分析,把其中一些基本特征提取出来,如:周期性、离散度、时序规律、最值、采样频率等,计算KPI曲线特点(包括周期性、趋势性、噪声、离散性、随机性等)。根据计算的曲线特点,判断KPI的大类别(毛刺型、阶梯型、周期型、离散型、稀疏型、多模态型等)

    来自:帮助中心

    查看更多 →

  • 数据特征

    数据特征 基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视曲线,帮助处理数据集。 您还可以选择数据集的多个版本,查看其可视曲线,进行对比分析。 背景信息 只有“物体检测”和“图像分类”的数据集支持数据特征分析。 只有发布后的数据集支持数据特征分析。发布后的

    来自:帮助中心

    查看更多 →

  • 特征清除

    特征清除 导入的模型有时会包含不必要的特征,如表面压印、棱边圆角和螺栓孔等,删除这些特征并不会对仿真结果产生太大影响,反而这些特征的存在会增加仿真复杂度,徒增求解时间,因此有必要清除这类特征来简化模型。 操作步骤 提供如下5种特征检测方法: 手动:手动选择要删除的特征。 面孤立特

    来自:帮助中心

    查看更多 →

  • 筛选特征

    筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练

    来自:帮助中心

    查看更多 →

  • 呼叫特征

    呼叫特征 表1 呼叫特征说明 值 说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助 父主题: 附录

    来自:帮助中心

    查看更多 →

  • 特征转换

    input_columns_str - 输入的列名组成的格式字符串,以逗号分隔,例如: "column_a" "column_a,column_b" input_weights_str - 输入的权重组成的格式字符串,以逗号分隔,例如: "0.5" "0.4,0.8" 样例 inputs

    来自:帮助中心

    查看更多 →

  • 特征尺度变换

    需要被进行尺度变换的特征名 - scale_method 尺度变换的方法 "ln" item_spliter 离散特征的,iterm之间的分割符 "," kv_spliter 离散特征KV的分割符 ":" 样例 输入数据 配置流程 运行流程 参数设置 输出结果 父主题: 特征工程

    来自:帮助中心

    查看更多 →

  • 特征工程

    特征工程 特征工程中已经预置了两个特征处理工程,这里暂不使用,会提供端到端的操作流程,帮助用户快速熟悉特征工程界面操作。 如果需要了解特征工程操作详情,可查看模型训练服务《用户指南》中的“特征工程”章节内容。 无故障硬盘训练数据集特征处理 单击菜单栏中的“特征工程”,进入特征工程首页,如图1所示。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了