更新时间:2025-09-16 GMT+08:00
分享

构建模型评测任务

大模型评测是测试和衡量大模型在现实世界情境中表现如何的过程,是了解大模型性能的关键。能够帮助用户识别模型的优缺点,确保其在实际应用中的有效性,能够胜任特定任务并满足相关要求。在对训练好的NLP大模型进行评测时,首先需要构建评测集。
  • 评测数据集要求
    本案例中主要考验模型的推理能力,可分为通用推理和场景推理能力。
    • 通推理用能力:主要包含通用领域的逻辑推理评测任务。
    • 场景推理能力:主要包含催收意图识别这一特定场景的推理评测任务。
  • 模型评测维度与标准
    • 完整性:确定大模型的响应是否完全解决用户的问题。
    • 文本相似性:将生成的文本与参考文本进行比较,评估它们的相似度,并给出得分以理解大模型的表现。
    • 回答准确性:衡量大模型基于事实的正确性回答问题的能力。
    • 相关性:确定大模型对特定提示或用户问题的响应相关性。
    • 有害性:确定大模型输出中冒犯性或有害语言的百分比。
    • 任务特定指标:与任务类型相关。如分类任务需要查看分类的精确率、召回率和F-score,语言建模任务需要查看回答的困惑度,文本生成任务需要考虑模型回答与真实数据的重叠度和覆盖度。
  • 创建评测数据集
    • 使用开源评测集:可以自行下载业内公开的评测集,如OpenCompass网站中就包含了上百个开源评测集,覆盖了通用和领域效果的评测。
    • 创建特定评测集:如需评测模型的领域知识能力,可以使用同源数据集构建评测集,主要关注模型的推理过程的最终答案的准确率。

在ModelArts Studio平台上创建评测数据集

评测集支持从本地上传、OBS文件和数据工程数据集导入。

从本地上传或OBS文件导入时
  1. 登录ModelArts Studio大模型开发平台,进入所需空间。
  2. 在左侧导航栏中选择“评测中心 > 评测集管理”,单击界面右上角“创建评测集”。
  3. 在“创建评测集”页面选择所需要的“模型类型”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。
    图1 导入评测集
从数据工程数据集创建时
  1. 登录ModelArts Studio大模型开发平台,进入所需空间。
  2. 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
  3. 在“创建导入任务”页面选择所需要的“数据集类型”、“文件格式”、“导入来源”,并单击“存储位置”上传数据文件。
  4. 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
  5. 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
  6. 在“创建发布任务”页面选择数据集模态并选择数据集文件。
  7. 单击“下一步”,选择数据用途、数据集可见性、使用场景、格式配置,填写名称,单击“确定”。

    该方式创建评测数据集的步骤与创建训练数据集一致,详细过程请参考构建NLP大模型微调数据集

在ModelArts Studio平台上创建评测任务

NLP大模型支持人工评测、自动评测两种评测模式。
  • 人工评测:通过人工创建的评测数据集和评测指标项对模型生成的回答进行评测,评测时需要人工基于创建好的评测项对模型回答进行打分,评测完成后会基于打分结果生成评测报告。
  • 自动评测:包含“基于规则”与“基于大模型”两种评测规则。
    • 基于规则(相似度/准确率)自动对模型生成的回答进行评测。用户可使用评测模板中预置的专业数据集进行评测,或者自定义评测数据集进行评测。支持的预置数据集如表1
    • 基于大模型,使用大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景,包含评分模式与对比模式。
    表1 预置评测集

    数据集类别

    数据集

    说明

    通用知识与技能

    常识知识

    评测模型对于日常生活基本知识和信息的掌握程度,包括历史、地理、文化等多个方面的基础认知。

    数学能力

    评测模型解决数学问题的能力,包括算数运算、代数方程求解、几何图形分析能力等。

    逻辑推理

    评测模型根据已知信息进行合理推断和分析的能力,涉及演绎,归纳等多种逻辑思维过程。

    中文能力

    评测大模型在中文语言和文化背景下的高级知识和推理能力。

    领域知识

    金融领域

    评测大模型在金融领域的能力,包括快速理解和解释复杂的金融概念,风险预测和数据分析,投资建议以及金融决策支持等。

创建人工评测任务:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“评测中心 > 评测任务”,单击界面右上角“创建人工评测任务”。
  3. 在“创建人工评测任务”页面,参考完成部署参数设置。
    表2 NLP大模型人工评测任务参数说明

    参数分类

    参数名称

    参数说明

    选择服务

    评测类型

    选择“大语言模型”。

    服务来源

    支持已部署服务、外部服务两种选项。单次最多可评测10个模型。

    • 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
    • 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。
      • 请求体支持openAI、tgi、自定义三种格式。
      • openAI格式即是由OpenAI公司开发并标准化的一种大模型请求格式;
      • tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。jsonpath介绍可参考https://github.com/json-path/JsonPath。

    评测配置

    评测指标

    由用户自定义评测指标并填写评测标准。

    评测数据集

    待评测的数据集。

    评测结果存储位置

    模型评测结果的存储位置。

    基本信息

    评测任务名称

    填写评测任务名称。

    描述

    填写评测任务描述。

  4. 参数填写完成后,单击“立即创建”,回退至“评测任务 > 人工评测”页面。
  5. 当状态为“待评测”时,可以单击操作列“在线评测”进入评测页面。
  6. 依据页面提示完成评测,全部数据评测完成后单击“提交”。
    • 评测详情页面,单击“盲测”,会隐藏模型名称,进行盲评。
    • 单击“存疑”或者“作废”进行用例的存疑或作废,若取消存疑或作废,单击“取消存疑”或“取消作废”进行处理。
    • 单击备注下方“单击以添加备注”,可以进行新增备注。
    • 评测页面,长按鼠标左键选中需要标记的文本内容,单击“标记”可以标记成重点内容。
  7. 返回“评测中心 > 评测任务 > 人工评测”页面,单击操作列“评测报告”查看模型评测结果。
    评测完成之后,进入人工评测列表页面,单击“人工复核”,进行复核评测,复核完成之后,单击“提交”,提交评估结果。

    由于本案例场景规模较小,且涉及推理过程的校验,因此选择了人工评测方式,其他评测方式的详细步骤请参考创建NLP大模型评测任务

相关文档