创建预测大模型评测任务

登录ModelArts Studio平台，在“我的空间”模块，单击进入所需空间。
图1 我的空间
在左侧导航栏中选择“评测平台 > 评测任务”，单击界面右上角“创建自动评测任务”。

在“创建自动评测任务”页面选择“预测大模型”，参考表1完成评测任务参数设置。

表1 创建预测大模型评测任务参数说明
参数分类	参数名称	参数说明
选择服务	评测类型	选择“预测大模型”。
	评测模型	当前支持预测大模型如下模型场景：回归表格分类表格异常检测表格回归时序分类时序异常检测时序
	服务来源	当前仅支持已部署服务已部署服务：选择部署至ModelArts Studio平台的模型进行评测。
评测配置	评测规则	评测规则仅支持“基于规则”。
	评测数据集	待评测的数据集。
	评测指标	待评测模型的评测指标。具体评测指标可参考预测大模型评测指标说明。评测指标需要在选定评测模型及评测数据集之后出现，根据评测模型的不同，各评测指标也不相同。至少需要选择一项指标评测。
	评测结果存储位置	模型评测结果的存储位置。
	命中浮动偏差值	设置命中指标的上下浮动范围。如果某待预测指标在命中指标加减该值的范围，则为命中。当“评测指标”选定“命中率”时需要设置该指标。
	数据集配置	预测目标列：指定预测目标变量列名（注：当前仅支持单变量预测）格式：[""]。如：["result"]，[]表示默认最后一列。
		标识列：主要用于连续时间段样本的区分标识，若不填写默认单文件所有行为是连续时序数据。
		历史窗口大小：时序预测输入窗口长度，数值越大建模包含的历史信息越多，建议取值范围128至512。
		预测目标列窗口大小：时序预测输出窗口长度，数值越大输出预测时间范围越大，但相应的显存占用会增加，模型精度可能会下降，请根据实际任务特点选择合适的输出窗口，建议取值范围48至96。
		异常标签列：记录每个样本的标签。格式：[""]。如：["result"]，[]表示默认最后一列。
		正常标签值：指定正常类别名称，用于模型最终计算误报率、漏报率等指标，默认0为正常，1为异常。
基本信息	评测任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。

评测任务参数设置完成后单击“立即创建”。
返回“评测任务 > 自动评测”页面，可查看创建好的评测任务，此时任务状态显示为“初始化”，等到自动评测完成，状态显示为“已完成”时，可以单击操作列“评测报告”查看模型评测结果。在“评测报告”页面可以查看详细的得分以及评测数据信息。
图2 预测大模型多模型评测效果对比

图3 预测大模型回归场景模型评测报告