创建三方大模型评测任务
创建三方大模型评测任务前,请确保已完成创建三方大模型评测数据集操作。
创建三方大模型自动评测任务(基于规则)
创建三方大模型自动评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考表1完成部署参数设置。
表1 三方大模型自动评测任务参数说明(基于规则) 参数分类
参数名称
参数说明
选择服务
评测类型
选择“大语言模型”。
服务来源
当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置
评测规则
选择“基于规则”:基于规则自动打分,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异,适合标准选择题或简单问答场景。
评测数据集
- 预置评测集:使用预置的专业数据集进行评测。
- 自定义评测集:由用户指定评测指标(F1分数、准确率、BLEU、Rouge)并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。
评测结果存储位置
模型评测结果的存储位置。
基本信息
任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。
创建三方大模型自动评测任务(基于大模型)
创建三方大模型自动评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图2 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考表2完成部署参数设置。
表2 三方大模型自动评测任务参数说明(基于大模型) 参数分类
参数名称
参数说明
选择服务
评测类型
选择“大语言模型”。
服务来源
当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置
评测规则
选择“基于大模型”:使用能力更强的大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。
选择模式
- 评分模式:裁判模型将根据设置的评分标准对模型推理结果自动进行打分
- 对比模式:裁判模型将对比两个模型在每个评测题目上的表现,选择win、lose、tie展示对比结果 ,对比模式下服务来源必须选择2个服务,默认所选择的第一个服务作为基准模型。
评测数据集
选择需要评测的数据集。NLP多轮问答场景仅支持基于大模型自动评测,可选择多轮问答评测数据集。
评测结果存储位置
模型评测结果的存储位置。
裁判员配置
裁判模型
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
打分规则
打分prompt模板可以选择预置,也可以选择自定义。创建自定义prompt模板需要单击“添加自定义规则->新建”,根据页面输入名称,人设,任务描述,是否包含问题,是否包含参考答案,打分策略,评测指标以及指标,最终单击“保存模板”。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的评测报告和详情。
创建三方大模型人工评测任务
创建三方大模型人工评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图3 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
- 在“创建人工评测任务”页面,参考表3完成部署参数设置。
表3 三方大模型人工评测任务参数说明 参数分类
参数名称
参数说明
选择服务
评测类型
选择“大语言模型”。
服务来源
当前仅支持通过“外部服务”调用API做评测。单次最多可评测10个模型。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置
评测指标
由用户自定义评测指标并填写评测标准。
评测数据集
待评测的数据集。
评测结果存储位置
模型评测结果的存储位置。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 人工评测”页面。
- 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
- 依据页面提示对评估效果区域进行评测打分,全部数据评测完成后单击“提交”。
- 评测详情页面,单击“盲测”,会隐藏模型名称,进行盲评。
- 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
- 单击备注下方“单击以添加备注”,可以进行新增备注。
- 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
图4 人工评测
- 返回“评测中心 > 评测任务 > 人工评测”页面,单击操作列“评测报告”查看模型评测结果。