大数据特征分析_分析ModelArts数据集中的数据特征-华为云

分析ModelArts数据集中的数据特征

集版本支持数据特征分析。只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。数据特征分析的数据范围，不同类型的数据集，选取范围不同：对于标注任务类型为“物体检测”的数据集版本，当已标注样本数为0时，发布版本后，数据特征页签版本置灰不可选

来自：帮助中心

查看更多 →
特征选择

特征选择删除列删除特征列的场景有很多，例如：两个特征呈线性变化关系，为减少模型训练的开销，删除其中一个特征列。操作步骤如下所示。单击界面右上角的图标，选择“数据处理 > 特征选择 > 删除列”，界面新增“删除列”内容。对应参数说明，如表1所示。表1 参数说明参数参数说明

来自：帮助中心

查看更多 →
筛选特征

筛选特征样本对齐执行完成后单击下一步进入“特征选择”页面，这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。企业A可以选择特征及标签后“启动分箱和IV计算”，通过联邦的统计算法计算出所选特征的iv值，一般而言iv值较高的特征更有区分性，应该作为首选的训练

来自：帮助中心

查看更多 →
分析数据

CARBON类型。如果原始数据表存储格式不满足要求，您可以通过 CDM 将原始数据直接导入到 DLI 中进行分析，无需上传OBS。通过DLI分析数据进入数据湖探索DLI控制台，参考DLI用户指南中的创建数据库创建数据库。参考创建OBS表创建OBS外表，包括贸易统计数据库、贸易详单信息表和基础信息表。

来自：帮助中心

查看更多 →
分析数据

CARBON类型。如果原始数据表存储格式不满足要求，您可以通过CDM将原始数据直接导入到DLI中进行分析，无需上传OBS。通过DLI分析数据进入数据湖探索DLI控制台，参考DLI用户指南中的创建数据库创建数据库。参考创建OBS表创建OBS外表，包括贸易统计数据库、贸易详单信息表和基础信息表。

来自：帮助中心

查看更多 →
删除大key分析记录

bigkey_id 是 String 大key分析任务ID。请求参数无响应参数状态码： 200 表2 响应Body参数参数参数类型描述 id String 大key分析记录ID。 instance_id String 实例ID。 status String 分析任务状态。 scan_type

来自：帮助中心

查看更多 →
修改数据源特征

修改数据源特征功能介绍修改数据源中的特征。调试您可以在 API Explorer 中调试该接口。 URI PUT /v2.0/{project_id}/workspaces/{workspace_id}/data-sources/{datasource_id}/data-struct

来自：帮助中心

查看更多 →
创建大key分析任务

创建大key分析任务功能介绍为Redis实例创建大key分析任务。调用方法请参见如何调用API。 URI POST /v2/{project_id}/instances/{instance_id}/bigkey-task 表1 路径参数参数是否必选参数类型描述 project_id

来自：帮助中心

查看更多 →
查询大key分析详情

bigkey_id 是 String 大key分析任务ID。请求参数无响应参数状态码： 200 表2 响应Body参数参数参数类型描述 id String 大key分析记录ID。 instance_id String 实例ID。 status String 分析任务状态。 scan_type

来自：帮助中心

查看更多 →
特征操作

信息熵是通过计算数据集的特征列与标签列之间的相关性筛选出有价值的特征列。相关性越大，信息熵越大；相关性越小，信息熵越小。将信息熵由大到小排序，筛选出信息熵较大的有价值的特征列。信息熵操作方法如下。单击表头，选中一个特征列作为标签列。选定列不同值数量不能超过100。单击“特征操作”，从下拉框中选择“信息熵”。

来自：帮助中心

查看更多 →
特征画像

，对应到后面的特征选择、算法推荐，会有不同的策略，有效提升模型的构建效率。单击“选择数据”左下方的“特征画像”。新增“特征画像”内容，如图1所示。图1 特征画像单击“特征画像”代码框左侧的图标，运行代码。通过运行结果左侧两个图可以直观的看一下原始数据和数据的密度分布图。运行结果右侧的参数说明，如表1所示。

来自：帮助中心

查看更多 →
呼叫特征

呼叫特征表1 呼叫特征说明值说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助父主题：附录

来自：帮助中心

查看更多 →
分析图数据

分析图数据通过GES直接对图数据进行可视化分析。前提条件已完成开发并调度Import GES作业，且作业运行成功。通过GES分析数据进入图引擎服务GES控制台，在“图管理”页面中单击对应图后的“访问”按钮。图1 访问图参考访问图和分析图，对导入的图数据进行可视化分析。

来自：帮助中心

查看更多 →
设置大key自动分析配置

设置大key自动分析配置功能介绍设置大key自动分析配置。调用方法请参见如何调用API。 URI PUT /v2/{project_id}/instances/{instance_id}/bigkey/autoscan 表1 路径参数参数是否必选参数类型描述 project_id

来自：帮助中心

查看更多 →
特征工程

在当前界面，可以看到如下两个特征工程： HardDisk-Detect_Good：好盘特征工程，用于对好盘训练数据或测试数据，进行数据处理，并生成经过特征处理后的新数据。 HardDisk-Detect_Fail：坏盘特征工程，用于对坏盘训练数据或测试数据，进行数据处理，并生成经过特征处理后的新数据。

来自：帮助中心

查看更多 →
特征工程

用户在使用特征工程之前，需要提供一份全局的特征信息文件，后续的特征工程、在线模块都会用到该文件。文件数据信息请参见全局特征信息文件。当上传的数据中的特征有变化时，用户需要同步更新该文件。该文件为JSON格式，包含特征名、特征大类、特征值类型。保留已有宽表对结果保存路径中已有宽表数据的保留方式：否，不保留任何已有的数据。

来自：帮助中心

查看更多 →
特征操作接口

signature_type 是 String 特征类型。最小长度：1 最大长度：150 signature_name 否 String 特征名称。 signature_attributes 否 Array of 表4 objects 特征属性。表4 MetadataAttributeRequest

来自：帮助中心

查看更多 →
分析Hive数据

分析Hive数据功能介绍本小节介绍了如何使用样例程序完成分析任务。样例程序主要有以下方式。使用JDBC接口提交数据分析任务。使用HCatalog接口提交数据分析任务。样例代码使用Hive JDBC接口提交数据分析任务，参考样例程序中的JDBCExample.java。

来自：帮助中心

查看更多 →
查询大key自动分析配置

查询大key自动分析配置功能介绍查询大key自动分析配置。调用方法请参见如何调用API。 URI GET /v2/{project_id}/instances/{instance_id}/bigkey/autoscan 表1 路径参数参数是否必选参数类型描述 project_id

来自：帮助中心

查看更多 →
分析Impala数据

分析Impala数据功能简介本小节介绍了如何使用样例程序完成分析任务。本章节以使用JDBC接口提交数据分析任务为例。样例代码使用Impala JDBC接口提交数据分析任务，参考样例程序中的JDBCExample.java。修改以下变量为false，标识连接集群的认证模式为普通模式。

来自：帮助中心

查看更多 →
特征工程

特征工程如何选中全量特征列？算法工程处理的时候必须要先采样吗？特征处理操作完成后怎么应用于数据集全量数据？特征工程和算法工程的关系？ JupyterLab环境异常怎么处理？父主题：常见问题

来自：帮助中心

查看更多 →