加工预测类数据集
加工预测类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。
创建预测类数据集加工任务
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”,单击界面右上角“创建加工任务”。
- 在“创建加工任务”页面,选择需要加工的预测类数据集,单击“下一步”。
- 进入“加工步骤编排”页面。对于预测类数据集,可以在"预置算子"栏选择预置预测加工算子。预测类加工算子预置能力清单见预测类加工算子介绍。也可以在"自定义算子"栏选择自己创建的自定义算子,创建步骤见自定义数据集加工算子。
- 在左侧“添加算子”分页勾选所需算子。
- 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“
”以调整算子执行顺序。
图2 算子编排
- 在编排过程中,可单击右上角“保存为模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可通过已保存的模板创建任务,参考使用加工模板。
- 加工步骤编排完成后,单击“下一步”进入“任务配置”界面。
- 自动生成加工数据集
勾选,配置生成加工数据集的信息,如图3;单击右下角“确定”,平台将启动加工任务。加工任务运行成功后自动生成加工数据集。
- 扩展信息(可选)
图4 扩展信息
- 自动生成加工数据集
- 单击“启动加工”。当数据加工任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成加工。
- 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。
预测类数据集加工可视化
在数据科学项目中,当数据科学家或工程师需要对训练数据集进行深入分析和预处理时,经常会遇到数据集特征统计分析、特征间相关性分析以及数据加工前后变化对比的需求。然而,传统的数据处理工具往往缺乏直观的可视化支持,导致分析过程复杂且难以快速获得洞察。为了解决这一问题,华为云提供了预测数据加工支持可视化的解决方案。通过新增的三个预测数据可视化加工算子,用户可以轻松实现特征分布统计、特征相关性分析以及序列特征加工前后的对比,所有分析结果不仅可以在运行报告中直观展示,还支持下载为可视化文件,极大提升了数据处理的效率和准确性。华为云的这一解决方案通过提供强大的可视化工具,帮助用户快速完成数据集的特征分析和加工效果评估,从而加速模型训练和优化过程。
预测类数据集通过数据分析算子,将数据加工过程中特征分析结果以可视化的形式呈现出来,具体操作步骤如下:
- 创建加工任务进入“加工步骤编排”页面后。对于预测类数据集,可以在"预置算子"栏选择预置的数据分析算子。数据分析算子能力见预测类加工算子介绍。
- 在左侧“添加算子”分页勾选所需数据分析算子。
- 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“
”以调整算子执行顺序。其中“特征加工前后对比”算子不允许作为加工步骤编排中的第一个算子。
图5 算子编排
- 在编排过程中,可单击右上角“保存为模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可通过已保存的模板创建任务,参考使用加工模板。
- 在右侧“加工步骤编排”页面配置各算子参数,可拖动右侧“
- 加工步骤编排完成后,
- 当数据加工任务运行成功后,状态将从“运行中”变为“运行成功”或者“数据集生成成功”,表示数据已经完成加工。此时可以在加工任务列表页面单击"任务ID"进入加工任务详情页面,之后单击“运行报告”-> “结果分析”查看加工任务可视化分析结果。
图6 任务列表
图7 结果分析-特征分布统计
图8 结果分析-特征相关性分析
图9 结果分析-序列特征加工前后对比
