从0到1利用ML Studio进行机器学习建模
本章节基于餐厅销量预测场景,从零开始介绍如何制作销售销量训练及销售销量预测两个算链。
前提条件
已经创建一个基于ML Studio的Notebook镜像,并进入MLS Editor可视化编辑界面,具体参考进入ML Studio操作界面章节。
Step1 创建一个空算链
单击Launcher界面的MLS Editor,选择名为PySpark-2.4.5的Kernel,创建一个空的算链。
创建算链后,左侧界面自动跳转到资产预览界面。
Step2 使用ML Studio建模
- 从左侧资产浏览界面拖拽预置算子或自定义算子至右侧算链编辑界面,如图2所示,则创建算子成功。
- 在画布中,鼠标移至算子结点,从右侧输出端口,如图3所示,拖动连线至下一个算子结点,鼠标尽量放置至如图4 连线结束位置所示红框位置。
- 进行算子连线。
算子之间具有数据的流入流出关系,若源算子与目标算子的输出输入端口数量都为1,则直接连线,如图4所示。
- 鼠标右键单击读取数据算子,选择“设置参数”,如图5所示在右侧滑出的参数设置窗口填写输入路径, 例如“/home/ma-user/work/.ml-workspace/built-in-workflow/sales_forecast/sales_train.csv”,表示读取文件为该路径下的“sales_train.csv”。
- 若源算子和目标算子其中一个及以上具有多个输出输入端口,连线时需选择输入输出端口,如图6所示。
- 右键单击随机森林回归算子,选择“设置参数”,在滑出的参数设置窗口填写标签列为“revenue”,如图7所示。
- 如图8所示,随机森林回归连线模型应用,随机森林回归算子输出pipeline_model传入模型应用算子, 作为模型应用算子的输入模型。
- 模型应用算子的dataframe由数据集分割算子的dataframe_2输入,如图9所示。
- 添加回归评估算子作为评估算子,将其与模型应用连线,右键选择设置参数,填写标签列为“revenue”,如图10所示。
- 最后添加保存模型算子,将其与随机森林回归算子连线,右键该算子选择参数设置,如图11所示。填写模型保存路径(文件夹级)"./output/SalesForecast",表示输出模型保存到根目录下output/SalesForecast文件下。
- 算链创建完成,单击运行,耐心等待几分钟,运行成功,如图12所示。
若运行失败,双击失败算子或者右键该算子选择编辑代码,如图13所示。在编辑算子代码界面可修改代码进行调试,如图14所示 。