创建NLP大模型评测任务
创建NLP大模型评测任务前,请确保已完成创建NLP大模型评测数据集操作。
预训练的NLP大模型不支持评测。
创建NLP大模型自动评测任务(基于规则)
创建NLP大模型自动评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考表1完成部署参数设置。
表1 NLP大模型自动评测任务参数说明(基于规则) 参数分类
参数名称
参数说明
选择服务
评测类型
选择“大语言模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置
评测规则
选择“基于规则”:基于规则自动打分,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异,适合标准选择题或简单问答场景。
评测数据集
- 预置评测集:使用预置的专业数据集进行评测。
- 自定义评测集:由用户指定评测指标(F1分数、准确率、BLEU、Rouge)并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。
绑定离线结果
选择自定义评测集时,可以选择所选评测集的离线结果。评测任务不调用模型接口,使用离线结果里面的模型回答。
评测结果存储位置
模型评测结果的存储位置。
基本信息
任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。
创建NLP大模型自动评测任务(基于大模型)
创建NLP大模型自动评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图2 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考表2完成部署参数设置。
表2 NLP大模型自动评测任务参数说明(基于大模型) 参数分类
参数名称
参数说明
选择服务
评测类型
选择“大语言模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置(基于大模型)
评测规则
选择“基于大模型”。
选择模式
- 评分模式:每个模型独立评测。
- 对比模式:对比两个模型的评测效果,报告上显示的是对比结果。
评测数据集
选择模型评测所需的数据集。
绑定离线结果
选择自定义评测集时,可以选择所选评测集的离线结果。评测任务不调用模型接口,使用离线结果里面的模型回答。
评测结果存储位置
模型评测结果的存储位置。
裁判员配置
裁判模型
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
打分规则
打分prompt模板可以选择预置,也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”,根据页面输入名称,人设,任务描述,是否包含问题,是否包含参考答案,打分策略,评测指标以及指标,最终单击“保存模板”。
基本信息
评测任务名称
填写评测任务名称。
描述(可选)
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。
创建NLP大模型自动评测任务(混合评测)
创建NLP大模型自动评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图3 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考表3表 NLP大模型自动评测任务参数说明(混合评测)完成部署参数设置。
表3 NLP大模型自动评测任务参数说明(混合评测) 参数分类
参数名称
参数说明
选择服务
评测类型
选择“大语言模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置(混合评测)
评测规则
选择“混合评测”。可同时支持基于规则和基于大模型评测。
评测集正确性校验不为空且在规则说明的类型范围内,打分基于规则参见表4。
选择模式
- 评分模式:每个模型独立评测。
- 对比模式:对比两个模型的评测效果,报告上显示的是对比结果。
评测数据集
选择模型评测所需的数据集。
绑定离线结果
选择自定义评测集时,可以选择所选评测集的离线结果。评测任务不调用模型接口,使用离线结果里面的模型回答。
评测结果存储位置
模型评测结果的存储位置。
裁判员配置
裁判模型
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
打分规则
打分prompt模板可以选择预置,也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”,根据页面输入名称,人设,任务描述,是否包含问题,是否包含参考答案,打分策略,评测指标以及指标,最终单击“保存模板”。
基本信息
评测任务名称
填写评测任务名称。
描述(可选)
填写评测任务描述。
表4 混合评测规则类型及说明 规则类型(中文)
规则类型(英文)
规则解释
打分说明
单选项
single choice
回答不符合规范,只填写选项名,不需要解释,如:A
模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O",直接比对,如果只出现一次,返回5分,否则1分。
单选项-格式遵从
single choice-format compliance
回答规范符合单选项格式,如:A
- 规则提取“最终答案”后的字符。
- 模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O",直接比对,如果只出现一次,返回5分,否则1分。
多选项
multiple entries
回答不符合规范,填写多个选项,不需要分隔符,如:ABC
- 正则获取“最终答案”后面的字符串。
- 模型输出如果只有一个字符"A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O",直接比对,全部匹配,返回5分,否则1分。
单词条
single entry
回答不符合规范,只填写词条名,不需要解释,如:股市
“|”切分正确性校验,模型回复一致或者被包含返回5分,否则1分。
方案选择
solution selection
回答不符合规范,只填写词条名,不需要解释,如:股市
“|”切分正确性校验,模型回复一致或者被包含返回5分,否则1分。
单词条-格式遵从
single entry-format compliance
回答规范符合单词条格式,只填写词条名,不需要解释,如:股市
- 规则提取“最终答案”后的字符
- “|”切分正确性校验,模型回复一致或者被包含返回5分,否则1分。
多词条
multiple entries
回答不符合规范,包含答案的陈述性语句,以列表形式填写,每个词条以单引号''包含起来",
正确性校验提取所有英文单引号 ' ' 包含的字串不为空,如果字串包含在模型回复中返回5分,否则1分。
工具名选择
tool name selection
回答不符合规范,包含答案的陈述性语句,以列表形式填写,每个词条以单引号''包含起来",
正确性校验提取所有英文单引号 ' ' 包含的字串不为空,如果字串包含在模型回复中返回5分,否则1分。
单数值
single value
回答不符合规范,最终的数值计算结果或结论,无需计算过程,无需名词,无需等式"
- 正则找出所有的整数、分数、小数。不存在返回1分。
- 尝试判断出现次数,如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”,如果“是”返回5分,否则1分。
单数值-格式遵从
single value-format compliance
回答规范符合单数值格式,最终的数值计算结果或结论,无需计算过程,无需名词,无需等式"
- 规则提取“最终答案”后的字符
- 正则找出所有的整数、分数、小数。不存在返回1分。
- 尝试判断出现次数,如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”,如果“是”返回5分,否则1分。
多数值
multiple value
回答不符合规范,以此形式填写,列表形式,英文逗号分隔: [18, 16]
- 正确性校验内容去掉“[”“]”,用“,”分割。
- 循环判断正确性校验数值,正则找出所有的整数、分数、小数。不存在返回1分。
- 尝试判断出现次数,如果只出现一次返回满分5分。否则判断前缀是否为“是”“为”“等于”,如果“是”返回5分,否则1分。
包含关键词
contains keywords
回答与关键词校验内容存在包含关系
“|”切分正确性校验,每一项都出现在模型回复中,返回满分5分,否则1分。
不包含关键词
not contains keywords
回答与关键词校验内容存在不包含关系
“|”切分正确性校验,每一项都不出现在模型回复中,返回满分5分,否则1分。
选项遵从
choice compliance
回答格式遵从选项
模型回复是否为["A", "B", "C", "D", "E"]中的一项,“是”返回满分5分,否则1分。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。
创建NLP大模型人工评测任务
创建NLP大模型人工评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图4 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
- 在“创建人工评测任务”页面,参考表5完成部署参数设置。
表5 NLP大模型人工评测任务参数说明 参数分类
参数名称
参数说明
选择服务
评测类型
选择“大语言模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置
评测指标
由用户自定义评测指标并填写评测标准。
评测数据集
待评测的数据集。
绑定离线结果
选择自定义评测集时,可以选择所选评测集的离线结果。评测任务不调用模型接口,使用离线结果里面的模型回答。
评测结果存储位置
模型评测结果的存储位置。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 人工评测”页面。
- 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
- 依据页面提示完成评测,全部数据评测完成后单击“提交”。
- 评测详情页面,单击“盲测”,会隐藏模型名称,进行盲评。
- 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
- 单击备注下方“单击以添加备注”,可以进行新增备注。
- 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
图5 人工评测
- 返回“评测中心 > 评测任务 > 人工评测”页面,单击操作列“评测报告”查看模型评测结果。