中软国际数据治理专业服务解决方案实践

中软国际数据治理专业服务解决方案实践

    大数据四大特征或4V特征 更多内容
  • 数据质量

    数据质量 数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。 前提条件 已将离线数据上传至OBS桶中。 创建数据质量作业 创建数据质量操作步骤如下:

    来自:帮助中心

    查看更多 →

  • 排序策略

    batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的表示特征的向量的长度。默认10。 神经网络结构 神经网络的层数与每一层的神经元节点个数。默认400,400,400。 激活函数 神经网络中的激活函数,将一个(一组)神经元的值映射为一个输出值。

    来自:帮助中心

    查看更多 →

  • 模型选择

    单击“模型选择”代码框左侧的图标,运行代码。 运行结果如下所示: 特征推荐:学件推荐的特征,除了一些通用的特征(最值、均值等),还有一部分是专门为类似KPI做的异常检测效果比较好的特征。通常采用滑窗的方式做异常检测。目前所有窗口的长度,是根据数据的周期性、样本数、周期的个数等数据特点推荐的。窗口的长度均可以修改,

    来自:帮助中心

    查看更多 →

  • 编辑模型信息

    在搜索栏中输入需要查询的模型数据关键字,单击“搜索”跳转模型列表界面,单击模型名称,进入模型详情页面。 单击“编辑”,修改模型的基础信息特征信息。 单击左上方模型名称下方的“编辑”按钮,可对模型的基本信息及特征信息进行修改,单击“确定”,修改成功。 在左下方选择需要编辑的特征属性页签,单击“

    来自:帮助中心

    查看更多 →

  • 数据清洗

    合正则筛选规则的所有特征列。 列关系 去除空值和特征列的关系。 取值如下所示: all:如果一行数据,满足设置列中的所有特征列均为空值,则丢弃此行数据。 any:如果一行数据,满足设置列中的任一特征列有空值,则丢弃此行数据。 当前操作流 从下拉框中选择当前数据操作流的名字。 操作流变量名

    来自:帮助中心

    查看更多 →

  • 产品功能

    产品功能 数据数据源功能可以在用户上传数据后,将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经过数据质量检测来确保数据的合法性。提供数据源智能检测,输出数据分布和数据质量信息等,智能完成特征工程。 智能场景 根据业务场景选择对应的智能推荐场景,快速搭建专属推荐

    来自:帮助中心

    查看更多 →

  • 算法工程处理的时候必须要先采样吗?

    算法工程处理的时候必须要先采样吗? 算法工程数据采样的目的是提升界面每个特征操作的速度。大数据量操作的时候建议先采样。数据采样后所有的特征操作,都只对采样后的数据进行处理,可以减少特征操作处理的数据量。 父主题: 特征工程

    来自:帮助中心

    查看更多 →

  • 数据导入

    的用户数据和物品数据整合成一条数据。 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户物品有多条记录,将会按照用户ID或者物品ID去重。 前提条件 已按照创建离线数据源操作指导完成数据源的创建。 已完成数据结构识别和人工复核确认。 操作步骤

    来自:帮助中心

    查看更多 →

  • AS

    在一个AS_Path列表中创建了一个多个拒绝模式的AS_Path规则后,需要创建一个.*规则,来允许所有其他路由通过。 * 之前的字符在目标对象中出现0次连续多次。 参考上例。 + 之前的字符在目标对象中出现1次连续多次。 65+表示6在AS_Path的首位,而5在AS_Path中出现一次多次,那么:

    来自:帮助中心

    查看更多 →

  • 卡方选择

    采用卡方检验来进行特征选择。 卡方检验(Chi-Squared Testχ2 Test)的基本思想是通过特征变量与目标变量之间的偏差大小来选择相关性较大的特征变量。首先假设两个变量是独立的,然后观察实际值与理论值的偏差程度,该偏差程度代表两个变量之间的相关性。如果某个特征变量与目标变

    来自:帮助中心

    查看更多 →

  • AS

    在一个AS_Path列表中创建了一个多个拒绝模式的AS_Path规则后,需要创建一个.*规则,来允许所有其他路由通过。 * 之前的字符在目标对象中出现0次连续多次。 参考上例。 + 之前的字符在目标对象中出现1次连续多次。 65+表示6在AS_Path的首位,而5在AS_Path中出现一次多次,那么:

    来自:帮助中心

    查看更多 →

  • 召回策略

    不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。 时间跨度(天) 用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。 上传物品相似度 支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户物品, re

    来自:帮助中心

    查看更多 →

  • 复制技术架构

    节点信息配置完成后,可以对节点进行属性的修改添加,具体请参考属性的配置。 单击“确定”,完成业务架构的节点的修改添加。 节点创建完成后,可根据业务场景添加修改节点间的联接,具体请参考联接的配置。 单击“确定”,完成技术架构的联接添加。 实体联接表示实体和实体组合的联接。 特征联接表示实体和特征组合的联接。

    来自:帮助中心

    查看更多 →

  • 自定义场景简介

    召回策略 召回策略通过大数据计算深度训练生成推荐候选集。 召回策略 过滤规则 过滤规则用于生成推荐的过滤集,包含黑白名单、历史行为过滤等特性。支持用户在线上推理过程中完成对相关物品的过滤。 过滤规则 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。

    来自:帮助中心

    查看更多 →

  • 应用场景

    288维特征数据中心训练数据集 提供用于数据中心场景AI模型训练的数据,包括数据中心制冷系统、硬盘等设备的运行状态等数据。 场景案例 DC硬盘故障检测:通过对老化硬盘和新硬盘的关键参数对比,实现提前30~45天故障预测,确保硬盘数据不丢失。提供1个训练集,24维特征。 DC

    来自:帮助中心

    查看更多 →

  • 创建纵向联邦学习作业

    和“回归”两种任务类型。 图2 新建作业 在弹出的界面进行数据选择,选择两方数据集作为整个作业的数据集,必须选择一个当前代理的数据集,另一个数据集可以来自空间中的任意一方。两方的数据集中一方数据集只含有特征,另一方的数据集必须含有标签。 重试:开关开启后,执行失败的作业会根据配置

    来自:帮助中心

    查看更多 →

  • 更新团队标注验收任务状态

    Array of strings 样本数据列表。 sample_dir String 样本所在路径。 sample_id String 样本ID。 sample_name String 样本名称。 sample_size Long 样本大小文本长度,单位是字节。 sample_status

    来自:帮助中心

    查看更多 →

  • 查询单个样本信息

    Array of strings 样本数据列表。 sample_dir String 样本所在路径。 sample_id String 样本ID。 sample_name String 样本名称。 sample_size Long 样本大小文本长度,单位是字节。 sample_status

    来自:帮助中心

    查看更多 →

  • 数据准备

    登录到计算节点后,进入数据管理并进行数据集发布。 图2 数据管理中新建数据集 参考下图填写参数信息。(1)指定连接器为localConnector,选择数据文件的路径,填写数据名称;(2)字段配置中特征字段(x_{特征序号})均配置为字段类型:FLOAT,字段类别:特征特征类型:连续;标

    来自:帮助中心

    查看更多 →

  • Python和Spark开发平台

    Python和Spark开发平台 创建特征工程 数据采样 列筛选 数据准备 特征操作 Notebook开发 全量数据应用 发布服务 父主题: 特征工程

    来自:帮助中心

    查看更多 →

  • 事件订阅

    订阅的事件类型,支持多选,可订阅的事件类型如下: 新增实体:实体资产增加。 更新实体:实体资产属性变更实体所属特征属性变更。 删除实体:实体资产删除。 更新特征:实体所属特征单独变更。 关联标签:实体资产与标签相关联。 移除标签:实体资产移除标签。 更新标签:实体资产的标签变更。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了