更新时间:2025-09-16 GMT+08:00
分享

创建预测大模型评测任务

  1. 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
  3. 在“创建自动评测任务”页面选择“预测大模型”,参考表1完成评测任务参数设置。
    表1 创建预测大模型评测任务参数说明

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“预测大模型”。

    评测模型

    当前支持预测大模型如下模型场景:

    • 回归表格
    • 分类表格
    • 异常检测表格
    • 回归时序
    • 分类时序
    • 异常检测时序

    服务来源

    当前仅支持已部署服务

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。

    评测配置

    评测规则

    评测规则仅支持“基于规则”。

    评测数据集

    待评测的数据集。

    评测指标

    待评测模型的评测的指标。根据评测模型的不同,各评测指标也不相同。至少需要选择一项指标评测。具体评测指标可参考表1

    评测结果存储位置

    模型评测结果的存储位置。

    命中浮动偏差值

    设置命中指标的上下浮动范围。如果某待预测指标在命中指标加减该值的范围,则为命中。当“评测指标”选定“命中率”时需要设置该指标。

    数据集配置

    预测目标列:指定预测目标变量列名(注:当前仅支持单变量预测)格式:[""]。如:["result"],[]表示默认最后一列。

    标识列:主要用于连续时间段样本的区分标识,若不填写默认单文件所有行为是连续时序数据

    历史窗口大小:时序预测输入窗口长度,数值越大建模包含的历史信息越,建议取值范围128至51

    预测目标列窗口大小:时序预测输出窗口长度,数值越大输出预测时间范围越大,但相应的显存占用会增加,模型精度可能会下降,请根据实际任务特点选择合适的输出窗口,建议取值范围48到96

    异常标签列:记录每个样本的标签。格式:[""]。如:["result"],[]表示默认最后一列

    正常标签值:指定正常类别名称,用于模型最终计算误报率、漏报率等指标,默认0为正常,1为异常

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 评测任务参数设置完成后单击“立即创建”。
  5. 返回“评测任务 > 自动评测”页面,可查看创建好的评测任务,此时任务状态显示为“初始化”,等到自动评测完成,状态显示为“已完成”时,可以单击操作列“评测报告”查看模型评测结果。在“评测报告”页面可以查看详细的得分以及评测数据信息。
    图2 预测大模型多模型评测效果对比
    图3 预测大模型回归场景模型评测报告

相关文档