加工预测类数据集

加工预测类数据集任务前，请先完成数据导入操作，具体步骤请参见导入数据至盘古平台。

创建预测类数据集加工任务

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”，单击界面右上角“创建加工任务”。
在“创建加工任务”页面，选择需要加工的预测类数据集，单击“下一步”。
进入“加工步骤编排”页面。对于预测类数据集，可以在"预置算子"栏选择预置预测加工算子。预测类加工算子预置能力清单见预测类加工算子介绍。也可以在"自定义算子"栏选择自己创建的自定义算子，创建步骤见自定义数据集加工算子。
1. 在左侧“添加算子”分页勾选所需算子。
2. 在右侧“加工步骤编排”页面配置各算子参数，可拖动右侧“”以调整算子执行顺序。
  图2 算子编排
3. 在编排过程中，可单击右上角“保存为模板”将当前编排流程保存为模板。后续创建新的数据加工任务时，可通过已保存的模板创建任务，参考使用加工模板。
加工步骤编排完成后，单击“下一步”进入“任务配置”界面。
- 自动生成加工数据集
   勾选，配置生成加工数据集的信息，如图3；单击右下角“确定”，平台将启动加工任务。加工任务运行成功后自动生成加工数据集。
  
  不勾选，单击右下角“确定”，平台将启动加工任务。加工任务运行成功后需要手动生成加工数据集。
  图3 自动生成加工数据集
- 扩展信息（可选）
  可选择行业、语言信息，或自定义数据集属性。
  
  图4 扩展信息
单击“启动加工”。当数据加工任务运行成功后，状态将从“运行中”变为“运行成功”，表示数据已经完成加工。
- 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。

预测类数据集加工可视化

在数据科学项目中，当数据科学家或工程师需要对训练数据集进行深入分析和预处理时，经常会遇到数据集特征统计分析、特征间相关性分析以及数据加工前后变化对比的需求。然而，传统的数据处理工具往往缺乏直观的可视化支持，导致分析过程复杂且难以快速获得洞察。为了解决这一问题，华为云提供了预测数据加工支持可视化的解决方案。通过新增的三个预测数据可视化加工算子，用户可以轻松实现特征分布统计、特征相关性分析以及序列特征加工前后的对比，所有分析结果不仅可以在运行报告中直观展示，还支持下载为可视化文件，极大提升了数据处理的效率和准确性。华为云的这一解决方案通过提供强大的可视化工具，帮助用户快速完成数据集的特征分析和加工效果评估，从而加速模型训练和优化过程。

预测类数据集通过数据分析算子，将数据加工过程中特征分析结果以可视化的形式呈现出来，具体操作步骤如下：

创建加工任务进入“加工步骤编排”页面后。对于预测类数据集，可以在"预置算子"栏选择预置的数据分析算子。数据分析算子能力见预测类加工算子介绍。
在左侧“添加算子”分页勾选所需数据分析算子。
1. 在右侧“加工步骤编排”页面配置各算子参数，可拖动右侧“”以调整算子执行顺序。其中“特征加工前后对比”算子不允许作为加工步骤编排中的第一个算子。
  图5 算子编排
2. 在编排过程中，可单击右上角“保存为模板”将当前编排流程保存为模板。后续创建新的数据加工任务时，可通过已保存的模板创建任务，参考使用加工模板。
加工步骤编排完成后，
当数据加工任务运行成功后，状态将从“运行中”变为“运行成功”或者“数据集生成成功”，表示数据已经完成加工。此时可以在加工任务列表页面单击"任务ID"进入加工任务详情页面，之后单击“运行报告”-> “结果分析”查看加工任务可视化分析结果。
图6 任务列表

图7 结果分析-特征分布统计

图8 结果分析-特征相关性分析

图9 结果分析-序列特征加工前后对比