更新时间:2025-01-08 GMT+08:00
分享

创建NLP大模型评测任务

创建NLP大模型评测任务前,请确保已完成创建NLP大模型评测数据集操作。

预训练的NLP大模型不支持评测。

创建NLP大模型自动评测任务

创建NLP大模型自动评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“模型开发 > 模型评测”,单击界面右上角“创建评测任务”。
  3. 在“创建评测任务”页面,参考表1完成部署参数设置。
    表1 NLP大模型自动评测任务参数说明

    参数分类

    参数名称

    参数说明

    选择服务

    模型来源

    选择“NLP大模型”。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式;tgi格式即是Hugging Face团队推出的一种大模型请求格式。
      • 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。

    评测配置

    评测类型

    选择“自动评测”。

    评测规则

    选择“基于规则”。

    评测数据集

    • 评测模板:使用预置的专业数据集进行评测。
    • 单个评测集:由用户指定评测指标(F1分数、准去率、BLEU、Rouge)并上传评测数据集进行评测。

      选择“单个评测集”时需要上传待评测数据集。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“模型评测 > 自动评测”页面。
  5. 当状态为“已完成”时,可以单击操作列“评测报告”查看模型评测结果,包括模型详细的得分以及评测明细。

创建NLP大模型人工评测任务

创建NLP大模型人工评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“模型开发 > 模型评测”,单击界面右上角“创建评测任务”。
  3. 在“创建评测任务”页面,参考表2完成部署参数设置。
    表2 NLP大模型人工评测任务参数说明

    参数分类

    参数名称

    参数说明

    选择服务

    模型来源

    选择“NLP大模型”。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式;tgi格式即是Hugging Face团队推出的一种大模型请求格式。
      • 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。

    评测配置

    评测类型

    选择“人工评测”。

    评测指标

    由用户自定义评测指标并填写评测标准。

    评测数据集

    待评测的数据集。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“模型评测 > 人工评测”页面。
  5. 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
  6. 依据页面提示对评估效果区域进行评测打分,全部数据评测完成后单击“提交”。
    图1 人工评测示例
  7. 在“人工测评”页面,评测任务的状态将显示为“已完成”,单击操作列“评测报告”查看模型评测结果。

相关文档