更新时间:2021-09-18 GMT+08:00
分享

特征工程简介

用户可以通过特征工程对数据集进行数据处理、特征组合、特征转换等特征处理,最大限度的从原始数据中提取特征以供模型训练使用。此外,用户还可以将优质的特征工程发布成服务,以服务的形式对具备完全相同特征的数据进行预处理。

特征工程相关的基本概念:

  • 特征工程:对数据进行特征处理操作的工程。
  • 特征工程服务:将优质的特征工程发布成服务,用户可以直接调用该服务,对具备完全相同特征的数据进行特征处理。
  • 特征工程任务:调用特征工程服务的过程。用户在调用特征工程服务的时候,需要基于特征工程服务新建任务。

特征工程管理页面

“特征工程”页面分为两个页签:特征处理工程和已发布服务。

  • “特征处理工程”页签列出了已有的特征工程列表信息,如图1所示。在该页签,用户可以新建特征工程、编辑特征工程信息、导出特征工程、复制特征工程、删除特征工程、将特征工程发布成服务,详情请参见表1
  • “已发布服务”页签列出了已发布的特征工程服务信息,如图2所示。在该页签,用户可以查看发布服务的详情,创建特征工程任务,删除特征工程服务,详情请参见表1
图1 特征处理工程页签

图2 已发布服务页签

表1 特征工程管理界面说明

页签

参数名称

参数说明

特征工程页面

创建特征工程。

根据特征工程名称关键字,快速查找特征工程。

单击图标,可查看Jupyterlab平台的环境信息,包括环境名称、状态、规格和剩余使用时间,停止运行环境的操作。

Spark资源环境信息,用于数据集分析以及Spark特征工程。包括资源ID、状态、规格以及删除资源的操作。

查看复制的特征工程的相关信息,包括任务类型、源特征工程、目标特征工程、创建时间和状态等信息。

特征工程页签

特征工程名

特征工程的名称。可以在创建特征工程时配置。

开发平台

特征工程处理数据集的计算平台。

包括如下开发平台:

  • Jupyterlab
  • Python
  • Spark

环境信息

包括运行环境的资源配置信息(“2核|8G”等)和运行状态(“创建中”、“运行中”等)。

数据集

数据名称。

创建人

创建特征工程的用户。

创建时间

创建特征工程的时间。

简介

特征工程的描述。

进入特征工程操作界面。

编辑特征工程相关信息,包括工程描述、AI引擎、规格等。

删除特征工程。

单击操作列图标后显示的下拉框中展示此图标。

下载特征工程包。

单击操作列图标后显示的下拉框中展示此图标。

复制生成新的特征工程。

模型训练服务支持将特征工程复制到项目公开组的其他项目中,对其他项目的数据进行特征处理。也支持复制到当前项目中,对其他数据进行特征处理。

单击操作列图标后显示的下拉框中展示此图标。

将特征工程发布成服务。详情请参见发布服务

开发平台为“JupyterLab”的特征工程操作列无此图标,此类特征工程的发布操作,通过在JupyterLab环境编辑界面,单击界面上方菜单栏中的发布图标完成,详情请参见发布算法工程服务

已发布服务页签

服务名称

发布的特征工程服务名称。

特征工程名

发布服务基于的特征工程名称。

开发平台

特征工程处理数据集的计算平台。

创建人

发布服务的用户名。

创建时间

发布服务的时间。

活动时间

最新执行特征工程任务的时间。

简介

特征工程服务的简介。

查看特征工程服务详情,包括特征工程任务的列表信息。

创建特征工程任务。

删除特征工程服务。

相关文档