中软国际数据治理专业服务解决方案实践

中软国际数据治理专业服务解决方案实践

    大数据 特征 更多内容
  • 数据特征

    数据特征 数据分析 数据处理 特征工程 父主题: 预置算子说明

    来自:帮助中心

    查看更多 →

  • 数据特征

    lt格式数据集版本支持数据特征分析。 数据特征分析的数据范围,不同类型的数据集,选取范围不同: 在“物体检测”的数据集中,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。有标注后,发布版本,显示已标注的图片的数据特征。 在“图像分类”的数据集中,当

    来自:帮助中心

    查看更多 →

  • 数据特征分析

    只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。 数据特征分析的数据范围,不同类型的数据集,选取范围不同: 对于标注任务类型为“物体检测”的数据集版本,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。否则,显示已标注的图片的数据特征。

    来自:帮助中心

    查看更多 →

  • 特征选择

    特征选择 删除列 删除特征列的场景有很多,例如:两个特征呈线性变化关系,为减少模型训练的开销,删除其中一个特征列。 操作步骤如下所示。 单击界面右上角的图标,选择“数据处理 > 特征选择 > 删除列”,界面新增“删除列”内容。 对应参数说明,如表1所示。 表1 参数说明 参数 参数说明

    来自:帮助中心

    查看更多 →

  • 修改数据源特征

    修改数据特征 功能介绍 修改数据源中的特征。 调试 您可以在API Explorer中调试该接口。 URI PUT /v2.0/{project_id}/workspaces/{workspace_id}/data-sources/{datasource_id}/data-struct

    来自:帮助中心

    查看更多 →

  • 特征工程

    在当前界面,可以看到如下两个特征工程: HardDisk-Detect_Good:好盘特征工程,用于对好盘训练数据或测试数据,进行数据处理,并生成经过特征处理后的新数据。 HardDisk-Detect_Fail:坏盘特征工程,用于对坏盘训练数据或测试数据,进行数据处理,并生成经过特征处理后的新数据。

    来自:帮助中心

    查看更多 →

  • 特征工程

    用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、在线模块都会用到该文件。 文件数据信息请参见全局特征信息文件。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 保留已有宽表 对结果保存路径中已有宽表数据的保留方式: 否,不保留任何已有的数据。

    来自:帮助中心

    查看更多 →

  • 特征操作接口

    RESTATE signature_type 否 String 特征类型。 signature_name 否 String 特征名称。 signature_attributes 否 Array of 表4 objects 特征属性。 表4 MetadataAttributeRequest

    来自:帮助中心

    查看更多 →

  • 离散特征分析

    离散特征分析 概述 离散值特征分析通过每个离散特征的gini,entropy,gini gain,information gain,information gain ratio等和每个离散值对应的gini,entropy指标,方便对离散特征进行理解。 输入 参数 子参数 参数说明

    来自:帮助中心

    查看更多 →

  • 特征异常检测

    特征异常检测 概述 特征异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency) 箱型图用于检测连续值类特征数据,根据四分位数检测异常特征。 AVF用于检测枚举值类特征数据,根据枚举特征的取值频率及阈值检测异常特征。 箱型图异常检测

    来自:帮助中心

    查看更多 →

  • 特征操作

    信息熵是通过计算数据集的特征列与标签列之间的相关性筛选出有价值的特征列。相关性越大,信息熵越大;相关性越小,信息熵越小。将信息熵由到小排序,筛选出信息熵较大的有价值的特征列。 信息熵操作方法如下。 单击表头,选中一个特征列作为标签列。 选定列不同值数量不能超过100。 单击“特征操作”,从下拉框中选择“信息熵”。

    来自:帮助中心

    查看更多 →

  • 特征画像

    ,对应到后面的特征选择、算法推荐,会有不同的策略,有效提升模型的构建效率。 单击“选择数据”左下方的“特征画像”。 新增“特征画像”内容,如图1所示。 图1 特征画像 单击“特征画像”代码框左侧的图标,运行代码。 通过运行结果左侧两个图可以直观的看一下原始数据数据的密度分布图。运行结果右侧的参数说明,如表1所示。

    来自:帮助中心

    查看更多 →

  • 特征清除

    特征清除 导入的模型有时会包含不必要的特征,如表面压印、棱边圆角和螺栓孔等,删除这些特征并不会对仿真结果产生太大影响,反而这些特征的存在会增加仿真复杂度,徒增求解时间,因此有必要清除这类特征来简化模型。 操作步骤 提供如下5种特征检测方法: 手动:手动选择要删除的特征。 面孤立特

    来自:帮助中心

    查看更多 →

  • 筛选特征

    筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练

    来自:帮助中心

    查看更多 →

  • 呼叫特征

    呼叫特征 表1 呼叫特征说明 值 说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助 父主题: 附录

    来自:帮助中心

    查看更多 →

  • 特征转换

    特征转换 概述 将对应列的数据乘以相应的权重得到新的列,只支持数字列。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明 参数 子参数 参数说明 input_columns_str

    来自:帮助中心

    查看更多 →

  • 特征工程简介

    特征工程简介 用户可以通过特征工程对数据集进行数据处理、特征组合、特征转换等特征处理,最大限度的从原始数据中提取特征以供模型训练使用。此外,用户还可以将优质的特征工程发布成服务,以服务的形式对具备完全相同特征数据进行预处理。 特征工程相关的基本概念: 特征工程:对数据进行特征处理操作的工程。

    来自:帮助中心

    查看更多 →

  • 过滤式特征选择

    过滤式特征选择 概述 过滤式特征选择根据特征对标签的重要性对特征进行筛选,特征重要性较高的特征,提升训练的精度和效率。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 参数

    来自:帮助中心

    查看更多 →

  • 全局特征信息文件

    全局特征信息文件 在特征工程、在线模块,近线模块时都会用到该全局的特征信息文件。当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 表1 全局特征信息文件字段描述 字段名 类型 描述 是否必选 user_features

    来自:帮助中心

    查看更多 →

  • 特征异常平滑

    稀疏特征key和value的分隔符。 ":" 样例 数据样本 样例1 非稀疏数据 样例2 稀疏数据 配置流程 运行流程 参数设置 图1 样例1数据参数设置 图2 样例2数据参数设置 结果查看 图3 样例1数据运行结果 图4 样例2数据运行结果 父主题: 特征工程

    来自:帮助中心

    查看更多 →

  • 特征工程

    特征工程 如何选中全量特征列? 算法工程处理的时候必须要先采样吗? 特征处理操作完成后怎么应用于数据集全量数据特征工程和算法工程的关系? JupyterLab环境异常怎么处理? 父主题: 常见问题

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了