特征工程简介
用户可以通过特征工程对数据集进行数据处理、特征组合、特征转换等特征处理,最大限度的从原始数据中提取特征以供模型训练使用。此外,用户还可以将优质的特征工程发布成服务,以服务的形式对具备完全相同特征的数据进行预处理。
特征工程相关的基本概念:
- 特征工程:对数据进行特征处理操作的工程。
- 特征工程服务:将优质的特征工程发布成服务,用户可以直接调用该服务,对具备完全相同特征的数据进行特征处理。
- 特征工程任务:调用特征工程服务的过程。用户在调用特征工程服务的时候,需要基于特征工程服务新建任务。
特征工程管理页面
“特征工程”页面分为两个页签:特征处理工程和已发布服务。
- “特征处理工程”页签列出了已有的特征工程列表信息,如图1所示。在该页签,用户可以新建特征工程、编辑特征工程信息、导出特征工程、复制特征工程、删除特征工程、将特征工程发布成服务,详情请参见表1。
- “已发布服务”页签列出了已发布的特征工程服务信息,如图2所示。在该页签,用户可以查看发布服务的详情,创建特征工程任务,删除特征工程服务,详情请参见表1。
页签 |
参数名称 |
参数说明 |
---|---|---|
特征工程页面 |
|
创建特征工程。 |
|
根据特征工程名称关键字,快速查找特征工程。 |
|
|
单击图标,可查看Jupyterlab平台的环境信息,包括环境名称、状态、规格和剩余使用时间,停止运行环境的操作。 |
|
|
Spark资源环境信息,用于数据集分析以及Spark特征工程。包括资源ID、状态、规格以及删除资源的操作。 |
|
|
查看复制的特征工程的相关信息,包括任务类型、源特征工程、目标特征工程、创建时间和状态等信息。 |
|
特征工程页签 |
特征工程名 |
特征工程的名称。可以在创建特征工程时配置。 |
开发平台 |
特征工程处理数据集的计算平台。 包括如下开发平台:
|
|
环境信息 |
包括运行环境的资源配置信息(“2核|8G”等)和运行状态(“创建中”、“运行中”等)。 |
|
数据集 |
数据名称。 |
|
创建人 |
创建特征工程的用户。 |
|
创建时间 |
创建特征工程的时间。 |
|
简介 |
特征工程的描述。 |
|
|
进入特征工程操作界面。 |
|
|
编辑特征工程相关信息,包括工程描述、AI引擎、规格等。 |
|
|
删除特征工程。 |
|
|
单击操作列图标后显示的下拉框中展示此图标。 下载特征工程包。 |
|
|
单击操作列图标后显示的下拉框中展示此图标。 复制生成新的特征工程。 模型训练服务支持将特征工程复制到项目公开组的其他项目中,对其他项目的数据进行特征处理。也支持复制到当前项目中,对其他数据进行特征处理。 |
|
|
单击操作列图标后显示的下拉框中展示此图标。 将特征工程发布成服务。详情请参见发布服务。 开发平台为“JupyterLab”的特征工程操作列无此图标,此类特征工程的发布操作,通过在JupyterLab环境编辑界面,单击界面上方菜单栏中的发布图标完成,详情请参见发布算法工程服务。 |
|
已发布服务页签 |
服务名称 |
发布的特征工程服务名称。 |
特征工程名 |
发布服务基于的特征工程名称。 |
|
开发平台 |
特征工程处理数据集的计算平台。 |
|
创建人 |
发布服务的用户名。 |
|
创建时间 |
发布服务的时间。 |
|
活动时间 |
最新执行特征工程任务的时间。 |
|
简介 |
特征工程服务的简介。 |
|
|
查看特征工程服务详情,包括特征工程任务的列表信息。 |
|
|
创建特征工程任务。 |
|
|
删除特征工程服务。 |