中软国际数据治理专业服务解决方案实践

中软国际数据治理专业服务解决方案实践

    大数据四大特征或4V特征 更多内容
  • 数据特征

    数据特征 数据分析 数据处理 特征工程 父主题: 预置算子说明

    来自:帮助中心

    查看更多 →

  • 数据特征

    数据特征 基于图片目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 您还可以选择数据集的多个版本,查看其可视化曲线,进行对比分析。 背景信息 只有“物体检测”和“图像分类”的数据集支持数据特征分析。 只有发布后的数据集支持数据特征分析。发布后的

    来自:帮助中心

    查看更多 →

  • 数据特征分析

    数据特征分析 基于图片目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 您还可以选择数据集的多个版本,查看其可视化曲线,进行对比分析。 背景信息 只有“图片”的数据集,且版本标注类型为“物体检测”和“图像分类”的数据集版本支持数据特征分析。 只

    来自:帮助中心

    查看更多 →

  • 特征选择

    特征选择 删除列 删除特征列的场景有很多,例如:两个特征呈线性变化关系,为减少模型训练的开销,删除其中一个特征列。 操作步骤如下所示。 单击界面右上角的图标,选择“数据处理 > 特征选择 > 删除列”,界面新增“删除列”内容。 对应参数说明,如表1所示。 表1 参数说明 参数 参数说明

    来自:帮助中心

    查看更多 →

  • 特征操作

    信息熵是通过计算数据集的特征列与标签列之间的相关性筛选出有价值的特征列。相关性越大,信息熵越大;相关性越小,信息熵越小。将信息熵由到小排序,筛选出信息熵较大的有价值的特征列。 信息熵操作方法如下。 单击表头,选中一个特征列作为标签列。 选定列不同值数量不能超过100。 单击“特征操作”,从下拉框中选择“信息熵”。

    来自:帮助中心

    查看更多 →

  • 特征画像

    运行结果右侧的参数说明,如表1所示。 表1 特征画像参数说明 参数 说明 设备数 需要检测的KPI对象的数量,如设备端口的数目。 样本数 训练数据总的样本数。 采样率 采样频率,单位为秒。60的含义为每60秒采样一次。 开始时间 采样的时间跨度。 结束时间 周期 是否有周期的特性,给出评估的值。

    来自:帮助中心

    查看更多 →

  • 筛选特征

    筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练

    来自:帮助中心

    查看更多 →

  • 呼叫特征

    呼叫特征 表1 呼叫特征说明 值 说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助 父主题: 附录

    来自:帮助中心

    查看更多 →

  • 特征转换

    特征转换 概述 将对应列的数据乘以相应的权重得到新的列,只支持数字列。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明 参数 子参数 参数说明 input_columns_str

    来自:帮助中心

    查看更多 →

  • 特征清除

    圆角检测:自动识别圆角特征。 手动 手动选择要删除的面特征。 几何工具栏选择“几何前处理 > 特征清除”。 在弹出的“特征清除”对话框中,单击“方法”选择“手动”。手动清除效果如图1所示。 图1 手动清除特征 在“待删除”中拾取要删除的面特征。 单击“确认”,所选特征被清除。 面孤立特征检测

    来自:帮助中心

    查看更多 →

  • 特征工程

    在当前界面,可以看到如下两个特征工程: HardDisk-Detect_Good:好盘特征工程,用于对好盘训练数据测试数据,进行数据处理,并生成经过特征处理后的新数据。 HardDisk-Detect_Fail:坏盘特征工程,用于对坏盘训练数据测试数据,进行数据处理,并生成经过特征处理后的新数据。

    来自:帮助中心

    查看更多 →

  • 特征工程

    当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 通用格式数据源根路径 通用格式生成所在的根目录,即用户提交初始初始用户画像-物品画像-标准宽表生成基于行为数据的用户画像更新时所提供的结果保存路径。 行为起止日期 用户行

    来自:帮助中心

    查看更多 →

  • 特征操作接口

    RESTATE signature_type 否 String 特征类型。 signature_name 否 String 特征名称。 signature_attributes 否 Array of 表4 objects 特征属性。 表4 MetadataAttributeRequest

    来自:帮助中心

    查看更多 →

  • 离散特征分析

    离散特征分析 概述 离散值特征分析通过每个离散特征的gini,entropy,gini gain,information gain,information gain ratio等和每个离散值对应的gini,entropy指标,方便对离散特征进行理解。 输入 参数 子参数 参数说明

    来自:帮助中心

    查看更多 →

  • 特征异常检测

    5IQR=25%分位数-(75%分位数-25%分位数)*1.5 (将数据由小到大排序,处于中间的为中位数,即50%分位数,在75%位置的即为75%分位数四分之三分位数——Q3,在25%位置的即为25%分位数四分之一分位数——Q1) AVF异常检测(Attribute Value

    来自:帮助中心

    查看更多 →

  • 特征工程

    特征工程 如何选中全量特征列? 算法工程处理的时候必须要先采样吗? 特征处理操作完成后怎么应用于数据集全量数据特征工程和算法工程的关系? JupyterLab环境异常怎么处理? 父主题: 常见问题

    来自:帮助中心

    查看更多 →

  • 特征工程

    特征工程 特征工程简介 Python和Spark开发平台 JupyterLab开发平台 父主题: 用户指南

    来自:帮助中心

    查看更多 →

  • 特征管理

    特征管理 特征操作接口 父主题: 应用模型

    来自:帮助中心

    查看更多 →

  • 特征工程

    特征工程 二值化 卡方选择 派生 特征转换 FP-growth 最小最大规范化 正则化 独热编码 主成分分析 离散化 标准化 字符串标签化 奇异值分解 过滤式特征选择 线性特征重要性 特征尺度变换 特征异常检测 特征异常平滑 gbdt编码模型训练 gbdt编码模型应用 父主题: 数据特征

    来自:帮助中心

    查看更多 →

  • 特征尺度变换

    特征尺度变换 概述 支持对稠密稀疏的数值类特征进行常见的尺度变换,支持常见的log2、log10、ln、abs及sqrt等尺度变化函数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象

    来自:帮助中心

    查看更多 →

  • 修改数据源特征

    修改数据特征 功能介绍 修改数据源中的特征。 调试 您可以在API Explorer中调试该接口。 URI PUT /v2.0/{project_id}/workspaces/{workspace_id}/data-sources/{datasource_id}/data-struct

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了