创建Deepseek大模型评测任务
创建NLP大模型评测任务前,请确保已完成创建Deepseek大模型评测数据集操作。
预训练的NLP大模型不支持评测。
创建Deepseek大模型自动评测任务(基于规则)
创建NLP大模型自动评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考表 DeepseekNLP大模型自动评测任务参数说明(基于规则)完成部署参数设置。
表1 Deepseek大模型自动评测任务参数说明(基于规则) 参数分类
参数名称
参数说明
选择服务
模型类型
选择“NLP大模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式;tgi格式即是Hugging Face团队推出的一种大模型请求格式。
- 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。
评测配置
评测规则
选择“基于规则”:基于规则自动打分,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异,适合标准选择题或简单问答场景。
评测数据集
- 预置评测集:使用预置的专业数据集进行评测。
- 单个评测集:由用户指定评测指标(F1分数、准确率、BLEU、Rouge)并上传评测数据集进行评测。选择“单个评测集”时需要上传待评测数据集。
评测结果存储位置
模型评测结果的存储位置。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”查看模型评测结果,包括模型详细的得分以及评测明细。
创建Deepseek大模型自动评测任务(基于大模型)
创建Deepseek大模型自动评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图2 我的空间
- 在左侧导航栏中选择“评测中心> 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考表2完成部署参数设置。
表2 Deepseek大模型自动评测任务参数说明(基于大模型) 参数分类
参数名称
参数说明
选择服务
模型类型
选择“大语言模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式;tgi格式即是Hugging Face团队推出的一种大模型请求格式。
- 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。
评测配置
评测规则
选择“基于大模型”:使用能力更强的大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。
选择模式
- 评分模式:裁判模型将根据设置的评分标准对模型推理结果自动进行打分
- 对比模式:裁判模型将对比两个模型在每个评测题目上的表现,选择win、lose、tie展示对比结果 ,对比模式下服务来源必须选择2个服务,默认所选择的第一个服务作为基准模型。
打分Prompt
- 评分模式下默认为score_prompt,该Prompt包含当前场景的标准回复,将Prompt在评分环节输入至裁判模型中进行打分。
- 对比模式下默认为arena_prompt,该Prompt包含当前场景的标准回复,意图让裁判模型比较两个服务的优劣。
在此过程中,用户可在右侧“变量”中修改metric评价维度等指标。您可对评分指标和评分步骤等内容进行修改
评测数据集
选择需要评测的数据集。NLP多轮问答场景仅支持基于大模型自动评测,可选择多轮问答评测数据集。
评测结果存储位置
模型评测结果的存储位置。
裁判员配置
裁判模型
支持选择已部署的服务或外部服务。
打分规则
打分规则支持自定义配置,裁判模型将根据设定的规则对模型结果进行打分或对比。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”查看模型评测结果,包括模型详细的得分以及评测明细。
创建DeepSeek大模型人工评测任务
创建NLP大模型人工评测任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图3 我的空间
- 在左侧导航栏中选择“评测中心> 评测任务”,单击界面右上角“创建人工评测任务”。
- 在“创建人工评测任务”页面,参考表3完成部署参数设置。
表3 DeepSeek大模型人工评测任务参数说明 参数分类
参数名称
参数说明
选择服务
模型类型
选择“NLP大模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式;tgi格式即是Hugging Face团队推出的一种大模型请求格式。
- 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。
评测配置
评测指标
由用户自定义评测指标并填写评测标准。
评测数据集
待评测的数据集。
评测结果存储位置
模型评测结果的存储位置。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 人工评测”页面。
- 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
- 依据页面提示对评估效果区域进行评测打分,全部数据评测完成后单击“提交”。
- 在“人工测评”页面,评测任务的状态将显示为“已完成”,单击操作列“评测报告”查看模型评测结果。