更新时间:2025-11-13 GMT+08:00
分享

创建NLP大模型评测任务

创建NLP大模型评测任务前,请确保已完成创建NLP大模型评测数据集操作。

预训练的NLP大模型不支持评测。

创建NLP大模型自动评测任务(基于规则)

创建NLP大模型自动评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
  3. 在“创建自动评测任务”页面,参考表1完成部署参数设置。
    表1 NLP大模型自动评测任务参数说明(基于规则)

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“大语言模型”。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    评测配置

    评测规则

    选择“基于规则”:基于规则自动打分,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异,适合标准选择题或简单问答场景。

    评测数据集

    • 预置评测集:使用预置的专业数据集进行评测。
    • 自定义评测集:由用户指定评测指标(F1分数、准确率、BLEU、Rouge)并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。

    绑定离线结果

    选择自定义评测集时,可以选择所选评测集的离线结果。评测任务不调用模型接口,使用离线结果里面的模型回答。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
  5. 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。

创建NLP大模型自动评测任务(基于大模型)

创建NLP大模型自动评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图2 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
  3. 在“创建自动评测任务”页面,参考表2完成部署参数设置。
    表2 NLP大模型自动评测任务参数说明(基于大模型)

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“大语言模型”。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    评测配置(基于大模型)

    评测规则

    选择“基于大模型”。

    选择模式

    • 评分模式:每个模型独立评测。
    • 对比模式:对比两个模型的评测效果,报告上显示的是对比结果。

    评测数据集

    选择模型评测所需的数据集。

    绑定离线结果

    选择自定义评测集时,可以选择所选评测集的离线结果。评测任务不调用模型接口,使用离线结果里面的模型回答。

    评测结果存储位置

    模型评测结果的存储位置。

    裁判员配置

    裁判模型

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    打分规则

    打分prompt模板可以选择预置,也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”,根据页面输入名称,人设,任务描述,是否包含问题,是否包含参考答案,打分策略,评测指标以及指标,最终单击“保存模板”。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述(可选)

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
  5. 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。

创建NLP大模型自动评测任务(混合评测)

创建NLP大模型自动评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图3 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
  3. 在“创建自动评测任务”页面,参考表3表 NLP大模型自动评测任务参数说明(混合评测)完成部署参数设置。
    表3 NLP大模型自动评测任务参数说明(混合评测)

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“大语言模型”。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    评测配置(混合评测)

    评测规则

    选择“混合评测”。可同时支持基于规则和基于大模型评测。

    评测集正确性校验不为空且在规则说明的类型范围内,打分基于规则参见表4

    选择模式

    • 评分模式:每个模型独立评测。
    • 对比模式:对比两个模型的评测效果,报告上显示的是对比结果。

    评测数据集

    选择模型评测所需的数据集。

    绑定离线结果

    选择自定义评测集时,可以选择所选评测集的离线结果。评测任务不调用模型接口,使用离线结果里面的模型回答。

    评测结果存储位置

    模型评测结果的存储位置。

    裁判员配置

    裁判模型

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    打分规则

    打分prompt模板可以选择预置,也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”,根据页面输入名称,人设,任务描述,是否包含问题,是否包含参考答案,打分策略,评测指标以及指标,最终单击“保存模板”。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述(可选)

    填写评测任务描述。

    表4 混合评测规则类型及说明

    规则类型(中文)

    规则类型(英文)

    规则解释

    打分说明

    单选项

    single choice

    回答不符合规范,只填写选项名,不需要解释,如:A

    模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O",直接比对,如果只出现一次,返回5分,否则1分。

    单选项-格式遵从

    single choice-format compliance

    回答规范符合单选项格式,如:A

    1. 规则提取“最终答案”后的字符。
    2. 模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O",直接比对,如果只出现一次,返回5分,否则1分。

    多选项

    multiple entries

    回答不符合规范,填写多个选项,不需要分隔符,如:ABC

    1. 正则获取“最终答案”后面的字符串。
    2. 模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O",直接比对,全部匹配,返回5分,否则1分。

    单词条

    single entry

    回答不符合规范,只填写词条名,不需要解释,如:股市

    “|”切分正确性校验,模型回复一致或者被包含返回5分,否则1分。

    方案选择

    solution selection

    回答不符合规范,只填写词条名,不需要解释,如:股市

    “|”切分正确性校验,模型回复一致或者被包含返回5分,否则1分。

    单词条-格式遵从

    single entry-format compliance

    回答规范符合单词条格式,只填写词条名,不需要解释,如:股市

    1. 规则提取“最终答案”后的字符
    2. “|”切分正确性校验,模型回复一致或者被包含返回5分,否则1分。

    多词条

    multiple entries

    回答不符合规范,包含答案的陈述性语句,以列表形式填写,每个词条以单引号''包含起来",

    正确性校验提取所有英文单引号 ' ' 包含的字串不为空,如果字串包含在模型回复中返回5分,否则1分。

    工具名选择

    tool name selection

    回答不符合规范,包含答案的陈述性语句,以列表形式填写,每个词条以单引号''包含起来",

    正确性校验提取所有英文单引号 ' ' 包含的字串不为空,如果字串包含在模型回复中返回5分,否则1分。

    单数值

    single value

    回答不符合规范,最终的数值计算结果或结论,无需计算过程,无需名词,无需等式"

    1. 正则找出所有的整数、分数、小数。不存在返回1分。
    2. 尝试判断出现次数,如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”,如果“是”返回5分,否则1分。

    单数值-格式遵从

    single value-format compliance

    回答规范符合单数值格式,最终的数值计算结果或结论,无需计算过程,无需名词,无需等式"

    1. 规则提取“最终答案”后的字符
    2. 正则找出所有的整数、分数、小数。不存在返回1分。
    3. 尝试判断出现次数,如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”,如果“是”返回5分,否则1分。

    多数值

    multiple value

    回答不符合规范,以此形式填写,列表形式,英文逗号分隔: [18, 16]

    1. 正确性校验内容去掉“[”“]”,用“,”分割。
    2. 循环判断正确性校验数值,正则找出所有的整数、分数、小数。不存在返回1分。
    3. 尝试判断出现次数,如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”,如果“是”返回5分,否则1分。

    包含关键词

    contains keywords

    回答与关键词校验内容存在包含关系

    “|”切分正确性校验,每一项都出现在模型回复中,返回满分5分,否则1分。

    不包含关键词

    not contains keywords

    回答与关键词校验内容存在不包含关系

    “|”切分正确性校验,每一项都不出现在模型回复中,返回满分5分,否则1分。

    选项遵从

    choice compliance

    回答格式遵从选项

    模型回复是否为["A", "B", "C", "D", "E"]中的一项,“是”返回满分5分,否则1分。

  4. 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
  5. 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。

创建NLP大模型人工评测任务

创建NLP大模型人工评测任务步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图4 我的空间
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
  3. 在“创建人工评测任务”页面,参考表5完成部署参数设置。
    表5 NLP大模型人工评测任务参数说明

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“大语言模型”。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    评测配置

    评测指标

    由用户自定义评测指标并填写评测标准。

    评测数据集

    待评测的数据集。

    绑定离线结果

    选择自定义评测集时,可以选择所选评测集的离线结果。评测任务不调用模型接口,使用离线结果里面的模型回答。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“评测任务 > 人工评测”页面。
  5. 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
  6. 依据页面提示完成评测,全部数据评测完成后单击“提交”。
    • 评测详情页面,单击“盲测”,会隐藏模型名称,进行盲评。
    • 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
    • 单击备注下方“单击以添加备注”,可以进行新增备注。
    • 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
      图5 人工评测
  7. 返回“评测中心 > 评测任务 > 人工评测”页面,单击操作列“评测报告”查看模型评测结果。

    评测完成之后,进入人工评测列表页面,单击“人工复核”,进行复核评测,复核完成之后,单击“提交”,提交评估结果。

相关文档