构建模型评测任务
- 评测数据集要求:
本案例中主要考验模型的推理能力,可分为通用推理和场景推理能力。
- 通推理用能力:主要包含通用领域的逻辑推理评测任务。
- 场景推理能力:主要包含催收意图识别这一特定场景的推理评测任务。
- 模型评测维度与标准:
- 完整性:确定大模型的响应是否完全解决用户的问题。
- 文本相似性:将生成的文本与参考文本进行比较,评估它们的相似度,并给出得分以理解大模型的表现。
- 回答准确性:衡量大模型基于事实的正确性回答问题的能力。
- 相关性:确定大模型对特定提示或用户问题的响应相关性。
- 有害性:确定大模型输出中冒犯性或有害语言的百分比。
- 任务特定指标:与任务类型相关。如分类任务需要查看分类的精确率、召回率和F-score,语言建模任务需要查看回答的困惑度,文本生成任务需要考虑模型回答与真实数据的重叠度和覆盖度。
- 创建评测数据集:
- 使用开源评测集:可以自行下载业内公开的评测集,如OpenCompass网站中就包含了上百个开源评测集,覆盖了通用和领域效果的评测。
- 创建特定评测集:如需评测模型的领域知识能力,可以使用同源数据集构建评测集,主要关注模型的推理过程的最终答案的准确率。
在ModelArts Studio平台上创建评测数据集
评测集支持从本地上传、OBS文件和数据工程数据集导入。
- 登录ModelArts Studio大模型开发平台,进入所需空间。
- 在左侧导航栏中选择“评测中心 > 评测集管理”,单击界面右上角“创建评测集”。
- 在“创建评测集”页面选择所需要的“模型类型”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。
图1 导入评测集
- 登录ModelArts Studio大模型开发平台,进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
- 在“创建导入任务”页面选择所需要的“数据集类型”、“文件格式”、“导入来源”,并单击“存储位置”上传数据文件。
- 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
- 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
- 在“创建发布任务”页面选择数据集模态并选择数据集文件。
- 单击“下一步”,选择数据用途、数据集可见性、使用场景、格式配置,填写名称,单击“确定”。
在ModelArts Studio平台上创建评测任务
- 人工评测:通过人工创建的评测数据集和评测指标项对模型生成的回答进行评测,评测时需要人工基于创建好的评测项对模型回答进行打分,评测完成后会基于打分结果生成评测报告。
- 自动评测:包含“基于规则”与“基于大模型”两种评测规则。
- 基于规则(相似度/准确率)自动对模型生成的回答进行评测。用户可使用评测模板中预置的专业数据集进行评测,或者自定义评测数据集进行评测。支持的预置数据集如表1。
- 基于大模型,使用大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景,包含评分模式与对比模式。
创建人工评测任务:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
- 在“创建人工评测任务”页面,参考完成部署参数设置。
表2 NLP大模型人工评测任务参数说明 参数分类
参数名称
参数说明
选择服务
评测类型
选择“大语言模型”。
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
- 请求体支持openAI、tgi、自定义三种格式。
- openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
- tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。
评测配置
评测指标
由用户自定义评测指标并填写评测标准。
评测数据集
待评测的数据集。
评测结果存储位置
模型评测结果的存储位置。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,回退至“评测任务 > 人工评测”页面。
- 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
- 依据页面提示完成评测,全部数据评测完成后单击“提交”。
- 评测详情页面,单击“盲测”,会隐藏模型名称,进行盲评。
- 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
- 单击备注下方“单击以添加备注”,可以进行新增备注。
- 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
- 返回“评测中心 > 评测任务 > 人工评测”页面,单击操作列“评测报告”查看模型评测结果。