-
数据资产管理服务
- 文档导读
- 产品介绍
- 快速入门
- 用户指南
-
API参考
- 使用前必读
- 接口简介
- 环境准备
- 接口使用方法
-
数据集
- 数据集订购接口
- 数据集发布接口
- 目录管理接口
- 数据集管理接口
- 数据集可视授权接口
-
订阅和审批接口
- 查询数据集订阅类型
- 申请订阅单个数据集
- 查询已经订阅的数据集
- 将需要订阅的数据集加入购物车
- 删除加入购物车的内容
- 查询加入购物车的内容
- 申请人员查看申请信息
- 查看具体的申请内容
- 添加审批人员信息
- 查看审批人员信息
- 删除审批人员信息
- 审批人员查看待审批或者已经审批的申请信息
- 审批人员审批申请信息
- 查询订购用户信息
- 查询用户订阅并下载成功的数据集信息
- 根据数据集ID查询用户订阅成功数据集详情信息
- 查看给定数据集的订阅情况
- 撤销未审批完成的订单
- 申请本地下载数据集
- 获取用户订阅申请状态
- 自动订阅数据集
- 查询自动订阅的数据集的下载状态
- 批量申请订阅数据集
- 数据集订阅到期续订和确认销毁
- 数据集订阅到期续订
- 重复提交校验
- 订阅付费数据集
- 根据ID订阅付费数据集
- 数据集下载接口
- 计量统计接口
- 用户信息管理接口
- 通知接口
- 标签接口
- 数据集评论接口
- 网图服务数据集查询接口
- 数据集备份恢复接口
- 数据资产账本接口
-
数据接入
- 管理软件包
- 管理采集机(运维)
- 管理采集机(用户)
-
管理采集任务
- 创建采集任务(数据准备,含机机接口)
- 创建采集任务
- 创建采集任务(控制节点,含机机接口)
- 编辑采集任务(数据节点,console页面)
- 启动采集任务(数据准备,含机机接口)
- 启动采集任务(控制节点,含机机接口)
- 启动采集任务(数据节点,console页面)
- 停止采集任务(数据准备,含机机接口)
- 停止采集任务(控制节点,含机机接口)
- 停止采集任务(数据节点console页面)
- 删除采集任务(数据准备,含机机接口)
- 删除采集任务(控制节点,含机机接口)
- 删除采集任务(数据节点,console页面)
- 连通性测试(数据准备,含机机接口)
- 连通性测试(数据准备,控制节点,含机机接口)
- 连通性测试(console,数据节点)
- 连通性测试(console,控制节点)
- 判断VPN是否打通
- 发送邮件
- 查询采集任务列表
- 采集任务发布数据集
- 查询采集任务详情
- 更新采集任务(数据节点)
- 查询采集任务状态列表
- 获取任务采集批次信息
- 获取任务批次采集信息
- 查询采集任务日志
- 删除采集文件记录
- 根据标签查询采集任务(数据准备)
- 查询采集任务状态(数据准备)
- 查询项目OBS信息(数据准备)
- 项目ID与采集任务ID关联(数据准备)
- 项目ID与采集任务ID取消关联(数据准备)
- 下载采集数据记录
- 查询kafkatopic信息
- 上传kafka证书
- 查询国家或者城市编码
- 根据协议类型获取协议类别列表
- 根据协议和采集机ID获取对应的探针包信息
- 根据采集机ID获取所有探针包信息
- 获取探针自定义参数
- 管理本地上传任务
- 数据接入备份恢复
- 采集机相关接口(机机接口)
- 订购数据服务相关接口
- 管理用户信息
- 施工数据相关接口
- 网图服务相关接口
- 数据解析
- 数据备份
- 数据恢复
- 数据准备
- 公共参数
- 修订记录
- 常见问题
- 产品术语
-
数据集服务
- 文档导读
- 产品介绍
- 快速入门
- 用户指南
-
API参考
- 使用前必读
- 接口简介
- 环境准备
- 接口使用方法
- 数据集服务订购接口
- 数据集发布接口
- 目录管理接口
- 数据集管理接口
- 数据集可视授权接口
-
订阅和审批接口
- 查询数据集订阅类型
- 申请订阅单个数据集
- 查询已经订阅的数据集
- 将需要订阅的数据集加入购物车
- 删除加入购物车的内容
- 查询加入购物车的内容
- 申请人员查看申请信息
- 查看具体的申请内容
- 添加审批人员信息
- 查看审批人员信息
- 删除审批人员信息
- 审批人员查看待审批或者已经审批的申请信息
- 审批人员审批申请信息
- 查询订购用户信息
- 查询用户订阅并下载成功的数据集信息
- 根据数据集ID查询用户订阅成功数据集详情信息
- 查看给定数据集的订阅情况
- 撤销未审批完成的订单
- 获取用户订阅申请状态
- 自动订阅数据集
- 查询自动订阅的数据集的下载状态
- 批量申请订阅数据集
- 数据集订阅到期续订和确认销毁
- 数据集订阅到期续订
- 重复提交校验
- 订阅付费数据集
- 根据ID订阅付费数据集
- 数据集下载接口
- 计量统计接口
- 用户信息管理接口
- 通知接口
- 标签接口
- 数据集评论接口
- 网图服务数据集查询接口
- 数据集服务备份恢复接口
- 数据资产账本接口
- 公共参数
- 修订记录
- 常见问题
- 产品术语
- 数据生成服务
- 模型训练服务
- 文档下载
- 通用参考
链接复制成功!
数据转换
重命名
对特征名称重命名。操作步骤如下所示。
- 单击界面右上角的
图标,选择“数据处理 > 数据转换 > 重命名”,界面新增“重命名”内容。
对应参数说明,如表1所示。
- 单击
图标,运行“重命名”代码框内容。
归一化
如果一个特征中大部分数据处在(0,100)之间,只有一个数值是10000,或者一个特征的数据分布的区间太长,都有可能会导致模型训练的效果不佳。可通过“归一化”操作将特征值映射到一定的数据区间内,以达到更好的模型训练效果。
操作步骤如下所示。
- 单击界面右上角的
图标,选择“数据处理 > 数据转换 > 归一化”,界面新增“归一化”内容。
对应参数说明,如表2所示。
表2 参数说明 参数
参数说明
列筛选方式
特征列的筛选方式,有如下两种:
- 列选择
- 正则匹配
列名
列筛选方式为“列选择”时展示,如果多列特征数据均需要归一化到同一数据区间,可单击“
”同时选中多列特征名称。
新列名
默认为空,则直接在原特征列上面做归一化处理。如果设置“新列名”,则原特征列不变,新增经过归一化处理后的一列。
正则表达式
列筛选方式为“正则匹配”时展示,请根据实际情况输入正则表达式,系统自动筛选符合正则筛选规则的所有特征列。
归一化最小值
归一化后数据均大于“归一化最小值”。
默认值:0。
归一化最大值
归一化后数据均小于“归一化最大值”。
默认值:1。即特征归一化完成后,数据的区间为(0,1)。
数据最小值
需要做归一化处理的特征数据最小值或者特征理论上可以取到的最小值。如果用户输入,则直接从界面获取,否则后台自动计算特征数据最小值。
默认值为“None”。即用户不输入数据最小值。
数据最大值
需要做归一化处理的特征数据最大值或者特征理论上可以取到的最大值。如果用户输入,则直接从界面获取,否则后台自动计算特征数据最大值。
默认值为“None”。即用户不输入数据最大值。
当前操作流
从下拉框中选择当前数据操作流的名字。
操作流变量名
如果存在多个数据操作流,可重命名操作流对象的变量名,以避免冲突。
- 单击
图标,运行“归一化”代码框内容。
数值化
如果特征不是数值型,不利于模型训练。可以通过数值化将其转换为数值型。数值化的思路是根据特征列的样本数据的种类进行编码,数值化后样本数据为取值范围在[0,样本数据种类-1]区间内的整型数据。
操作步骤如下所示。
- 单击界面右上角的
图标,选择“数据处理 > 数据转换 > 数值化”,界面新增“数值化”内容。
对应参数说明,如表3所示。
- 单击
图标,运行“数值化”代码框内容。
特征离散化
特征离散化是将特征列连续的样本数据离散化为[0,离散数量-1]区间内的整型数据。
操作步骤如下所示。
- 单击界面右上角的
图标,选择“数据处理 > 数据转换 > 特征离散化”,界面新增“特征离散化”内容。
对应参数说明,如表4所示。
- 单击
图标,运行“特征离散化”代码框内容。
One-hot编码
One-hot编码是根据特征列样本数据的种类对应拆分成相同数量的特征列,将原特征数据映射到新特征中,样本数据相同编码为1,不同编码为0。以特征“Sepal”的样本数据为(2,9,2,8,4)为例,One-hot编码后,会拆分成四列特征,每个特征的样本数据为:
- Sepal_2:10100
- Sepal_4:00001
- Sepal_8:00010
- Sepal_9:01000
操作步骤如下所示。
- 单击界面右上角的
图标,选择“数据处理 > 数据转换 > One-hot编码”,界面新增“One-hot编码”内容。
对应参数说明,如表5所示。
- 单击
图标,运行“One-hot编码”代码框内容。
新增特征
新增特征是对已有特征列进行加、减、乘、除等操作后,生成的新特征。
操作步骤如下所示。
- 单击界面右上角的
图标,选择“数据处理 > 数据转换 > 新增特征”,界面新增“新增特征”内容。
对应参数说明,如表6所示。
- 单击
图标,运行“新增特征”代码框内容。
Box-Cox变换
用于连续的响应变量不满足正态分布时,进行数据变换,达到接近正态分布的目的。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数,进而确定应采取的数据变换形式。
使用Box-Cox变换的优点:
- 数据得到的回归模型优于变换前的模型,变换可以使模型的解释力度等性能更加优良。
- 降低偏度值,残差可以更好的满足正态性、独立性等假设前提,使其更加符合后续对数据分布的假设,降低了伪回归的概率。
操作步骤如下所示。
- 单击界面右上角的
图标,选择“数据处理 > 数据转换 > Box-Cox变换”,界面新增“Box-Cox变换”内容。
对应参数说明,如表7所示。
- 单击
图标,运行“Box-Cox变换”代码框内容。