创建NLP大模型评测数据集
效果优秀的模型需要保证模型拥有良好的泛化能力,即模型不仅要在已给定的数据(训练数据)上表现良好,还要能够在未见过的数据上也达到类似的效果。为了实现这一目标,模型评测是必不可少的环节。在收集评估数据集时,必须保持数据集的独立性和随机性,确保收集到的数据能够代表现实世界的样本数据。这有助于避免对评估结果产生偏见,从而更准确地反映模型在不同场景下的表现。通过使用评估数据集对模型进行评估,开发者可以了解模型的优缺点,从而找到优化方向。
NLP大模型支持人工评测、自动评测两种评测模式。
- 人工评测:通过人工创建的评测数据集和评测指标项对模型生成的回答进行评测,评测时需要人工基于创建好的评测项对模型回答进行打分,评测完成后会基于打分结果生成评测报告。
- 自动评测:包含“基于规则”、“基于大模型”以及两种评测组合的“混合评测”规则。
- 基于规则(相似度/准确率)自动对模型生成的回答进行评测。用户可使用评测模板中预置的专业数据集进行评测,或者自定义评测数据集进行评测。支持的预置数据集如表1。
- 基于大模型,使用大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景,包含评分模式与对比模式。
- 混合评测:支持同时选择基于规则与基于大模型一起评测的功能,用户在创建评测任务时,可以选择混合模式,系统将根据评测集的正确性校验类型和内容,自动选择合适的评测方法进行打分,并最终输出综合评测报告。
如果评测盘古大模型, 需要在发布数据集时,将数据集格式发布为“盘古格式”。
数据工程数据集创建
评测数据集的创建步骤与训练数据集一致,本章节仅做简单介绍,详细步骤请参见使用数据工程构建NLP大模型数据集。
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
- 在“创建导入任务”页面选择所需要的“数据集类型”、“文件格式”、“导入来源”,并单击“存储位置”上传数据文件。
- 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
- 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
- 在“创建发布任务”页面选择数据集模态并选择数据集文件。
- 单击“下一步”,选择发布格式,填写名称,选择数据集可见性,单击“确定”。
如果评测盘古大模型, 需要在发布数据集时,将数据集格式发布为“盘古格式”。
自定义评测集支持从本地上传、OBS文件和数据工程数据集导入
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“评测中心 > 评测集管理”,单击界面右上角“创建评测集”。
- 在“创建评测集”页面选择所需要的“模型类型”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。本地上传最大10MB,OBS默认最大100M,评测集通过数据工程导入时数据大小约束以数据工程为准,参见表3。
图1 评测集导入
通过本地上传、OBS上传评测数据集时,数据格式要求如下:
jsonl示例:
{ "case_no": "1", "corpus_no": "1", "class_level1": "category1", "class_level2": "category2", "class_level3": "", "class_level4": "", "question": "hello", "ref_answer": "What can I do for you today?", "question_type": "通用问题样例" } { "case_no": "2", "corpus_no": "1", "class_level1": "category1", "class_level2": "class_level2", "class_level3": "", "class_level4": "", "question": "{\"query\":\"hello\",\"type\":\"typeValue\"}", "ref_answer": "What can I do for you today?", "question_type": "JSON格式问题样例" }图2 csv、excel示例
导入的评测集文件中,各字段的含义如下(括号内的为json格式文件的字段名):
表4 评测集参数说明 参数名称
是否必填
参数含义
序号(case_no)
否
当前评测用例在整个评测数据集中的唯一编号,用于标识和检索。
轮数(corpus_no)
否
在多轮对话评测场景中,标识当前用例所属的对话轮数。
一级分类(class_level1)
否
评测用例所属一级分类,即用例所属的顶层分类,用于粗粒度划分任务类型,长度128字符,不可使用特殊字符、表情符。
二级分类(class_level2)
否
评测用例所属二级分类,在一级分类基础上的进一步细分,有助于更精准地定位任务领域,长度128字符,不可使用特殊字符、表情符。
三级分类(class_level3)
否
评测用例所属三级分类,更细粒度的任务分类,便于构建更具针对性的评测维度,长度128字符,不可使用特殊字符、表情符。
四级分类(class_level4)
否
评测用例所属四级分类,最细层级的任务分类,用于精确标注评测用例的具体类型,长度128字符,不可使用特殊字符、表情符。
问题(question)
是
评测用例中需要模型回答的具体问题或输入内容。
参考回复(ref_answer)
是
针对问题的标准或参考答案,用于评估模型输出的质量。
题目类型(question_type)
否
问题所属分类,可用于匹配裁判模型的提示词模板,长度12字符,不可使用特殊字符、表情符。
提示词模板(prompt_template)
否
调用推理模型时,所使用的提示词。
提示词名称(prompt_name)
否
提示词模板的名称,用于对提示词模板进行分类。
offline-result1
否
创建评测任务时,搭配自定义评测集使用。导入评测集时附带的离线评测结果,支持多个“offline-”前缀字段并行导入。

NLP开源评测集管理
功能介绍
开源评测集是一组经过精心设计、标注和标准化的数据样本,专门用于测试、评估和量化人工智能模型在特定任务上的表现。
盘古大模型服务提供了针对大语言模型、CV大模型及多模态大模型适用的开源评测集的管理功能,便于用户能够方便使用开源数据集,对相关大模型做更加精准高效的评测。
开源评测集导入步骤
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“评测中心 > 评测集管理 > 预置评测集”,在“数据状态”选项选择“未导入”或“导入失败”,即可看到待导入的开源评测集。当前支持大语言/多模态和CV大模型开源评测集。导入NLP大模型评测集的模型类型选中”大语言模型”。
图3 预置评测集管理
- 移动鼠标到待导入的开源评测集页签,单击“导入数据”按钮,在“导入数据”页面会提示该评测集相关的原始数据下载地址链接和文件名称,按提示下载开源数据集到本地。下载数据集可以通过本地导入,也可先上传到OBS后,再通过选中对应的OBS地址导入。评测集导入后,状态切换至“导入中”,导入过程根据数据量大小不同耗时几分钟到几十分钟不等。
图4 导入数据
- 导入成功后,数据状态选中“导入成功”即可看到该评测集。鼠标移动到该评测集,即可看到“创建自动评测”和评测集详情。已导入成功的开源评测集使用方法与预置评测集相同。
图5 导入评测集结果
本次支持的开源评测集名称列表,下载链接,以及评测代码来源见表5。表5 开源评测集来源表 名称
评测集描述
数据获取地址
下载文件说明
代码地址
MMLU-Pro
MMLU-Pro是一个更为稳健和具有挑战性的大规模多任务理解数据集,旨在更严格地评估大型语言模型的能力。该数据集包含了横跨多个学科的12K个复杂问题。
https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro/tree/30527804ea8854662078e457808040d872ecdf29/data
test-00000-of-00001.parquet
Super GPQA
Super GPQA 是一个全面的基准,评估研究生水平的知识和推理能力跨285个学科,采用了一种新的Human-LLM协同过滤机制,通过基于LLM响应和专家反馈的迭代细化来消除琐碎或模棱两可的问题。
https://huggingface.co/datasets/lmms-lab/SuperGPQA/tree/36ec80e791b34bb7116e2255c0fb448ef2472756/data
test-00000-of-00001.parquet
GPQA_Diamond
GPQA_Diamond是一个由生物学、物理学和化学领域专家编写并验证的多选问答数据集,包含448个极其困难的问题。该数据集设计用于评估人工智能系统在跨学科问题上的表现,尤其针对非专家领域的问题(如物理学家回答化学问题)进行测试。
https://huggingface.co/datasets/aradhye/gpqa_diamond/tree/83e8d789938cdfd940871bf1141cb57e648a56af
gpqa_diamond.csv
AIME 2024
此数据集包含来自2024年AIME I和AIME II测试的30道题目。
https://huggingface.co/datasets/HuggingFaceH4/aime_2024/tree/58e32b4b387f34192acdacbdf602510c459a6525/data
train-00000-of-00001.parquet
https://github.com/open-compass/opencompass/blob/main/opencompass/configs/datasets/aime2024
AIME 2025
此数据集来自2025年美国数学邀请赛(AIME)I卷和II卷问题。
https://huggingface.co/datasets/MathArena/aime_2025/tree/67d1e87ac83090071842a6ee8b860c438cc07b9b/data
train-00000-of-00001.parquet
https://github.com/open-compass/opencompass/blob/main/opencompass/configs/datasets/aime2024
MME
MME评测集是用于评估多模态模型性能的标准化测试集,通过跨模态理解、生成和一致性任务全面衡量模型能力。
https://huggingface.co/datasets/lmms-lab/MME/tree/0239381235bf3ecf69850e6a0a6ef5a1c3230d9c/data
test-00000-of-00004-a25dbe3b44c4fda6.parquet,"test-00001-of-00004-7d22c7f1aba6fca4.parquet","test-00002-of-00004-594798fd3f5b029c.parquet","test-00003-of-00004-53ae1794f93b1e35.parquet"
-
MMBench v1.1 dev
MMBench v1.1评测集的分类和标签体系主要围绕多模态任务设计,涵盖视觉理解、生成和编辑能力评估。
https://opencompass.openxlab.space/utils/benchmarks/MMBench/MMBench_DEV_EN_V11.tsv
MMBench_DEV_EN_V11.tsv
-
DocVQA
DocVQA(Document Visual Question Answering)是文档视觉问答任务,旨在通过机器“理解”文档图像并回答相关问题,推动文档分析与识别研究的“目的驱动”发展。
https://opencompass.openxlab.space/utils/VLMEval/DocVQA_VAL.tsv
DocVQA_VAL.tsv
https://github.com/open-compass/VLMEvalKit/blob/main/vlmeval/dataset/image_vqa.py
mathVista
MathVista是由微软、加州大学洛杉矶分校(UCLA)和华盛顿大学(UW)联合开发的多模态数学推理基准数据集,旨在评估大模型在视觉场景下的数学推理能力。
https://huggingface.co/datasets/AI4Math/MathVista/tree/f9de603e9e71a015dda32f31129809b62a562b43/data
test-00000-of-00002-6b81bd7f7e2065e6.parquet
test-00001-of-00002-6a611c71596db30f.parquet
-
MMMU-Pro(10 options)
MMMU-Pro是多模态模型评估基准MMMU的升级版,通过三步改进(过滤纯文本问题、增加候选选项、引入纯视觉输入)更严格测试模型的真实多模态理解能力。
https://huggingface.co/datasets/MMMU/MMMU_Pro/tree/7e27b5ff8311a57918694b242f0471e5eea91bda/standard%20(10%20options)
test-00000-of-00002.parquet
test-00001-of-00002.parquet
MMMU-Pro(vision)
-
https://huggingface.co/datasets/MMMU/MMMU_Pro/tree/b037bbe72fe851ae9c9a792c7b34722542d4dc78/vision
test-0000[0-3]-of-00004.parquet
-
ScreenSpot Pro
ScreenSpot-Pro评测集是专为高分辨率专业环境设计的多模态LLM基准工具,包含1,581个任务数据集,覆盖23个行业,主要针对GUI定位模型的评估。
"http://opencompass.openxlab.space/utils/benchmarks/GUI/ScreenSpot_Pro/ScreenSpot_Pro_Development.tsv",
"http://opencompass.openxlab.space/utils/benchmarks/GUI/ScreenSpot_Pro/ScreenSpot_Pro_Creative.tsv",
"http://opencompass.openxlab.space/utils/benchmarks/GUI/ScreenSpot_Pro/ScreenSpot_Pro_CAD.tsv",
"http://opencompass.openxlab.space/utils/benchmarks/GUI/ScreenSpot_Pro/ScreenSpot_Pro_Scientific.tsv",
"http://opencompass.openxlab.space/utils/benchmarks/GUI/ScreenSpot_Pro/ScreenSpot_Pro_Office.tsv",
"http://opencompass.openxlab.space/utils/benchmarks/GUI/ScreenSpot_Pro/ScreenSpot_Pro_OS.tsv",
ScreenSpot_Pro_Development.tsv,"ScreenSpot_Pro_Creative.tsv","ScreenSpot_Pro_CAD.tsv","ScreenSpot_Pro_Scientific.tsv","ScreenSpot_Pro_Office.tsv","ScreenSpot_Pro_OS.tsv"
https://github.com/open-compass/VLMEvalKit/blob/main/vlmeval/dataset/GUI/screenspot_pro.py
videomme
Video-MME是首个专为多模态大模型设计的视频分析综合评估基准,由中国科学技术大学、厦门大学、香港大学等机构联合推出,旨在全面评估模型在视频理解、多模态处理及长上下文推理方面的能力。
https://huggingface.co/datasets/lmms-lab/Video-MME/tree/main
-
-
mvbench
MVBench是由上海人工智能实验室等机构联合提出的多模态大模型视频理解能力基准,包含20项复杂视频任务,用于全面评测现有多模态模型的视频理解能力。
-
-
mmdu
MMDU是一个多模态大模型评测数据集,主要用于评估长上下文、多图像和多轮对话场景下的模型性能。
MSCOCO detect
MSCOCO(Microsoft COCO)是一个由微软构建的目标检测数据集,包含检测、分割、关键点检测等任务,主要用于解决复杂场景下的目标检测问题。
-
-
VOC
VOC是一个在计算机视觉发展史上具有里程碑意义的经典数据集,常年被用于目标检测、图像分类和语义分割任务的模型训练与评测。
-
-
TinyImageNet
TinyImageNet是斯坦福大学提供的图像分类数据集,包含200个类别,每个类别包含500张训练图像、50张验证图像和50张测试图像。
-
-
Cifar100
Cifar100是一个广为人知的经典小图像分类数据集,包含100个精细分类的物体类别,每个类别提供500张训练图像和100张测试图像,所有图像均为32x32像素的彩色格式。
-
-
MLRSNet
MLRSNet是一个大规模的高分辨率遥感图像数据集,包含46个类别,每张图像可能包含多个地物目标,专用于遥感场景下的多标签分类任务。
-
-
CityScapes
CityScapes是一个专注于自动驾驶城市场景的高质量语义分割数据集,提供了大量从车载视角采集的街景图像及其精细的像素级标注。
-
-
ADE20K
ADE20K是2016年由麻省理工学院(MIT)发布的场景理解数据集,以其丰富的场景多样性、密集的像素级标注和对物体结构的细节标注而闻名,难度较高。
https://huggingface.co/datasets/sezer12138/ADE20k_Segementation
-
-
设置提示词
给评测集设置提示词模板,在评测任务执行时,可以使用配置的提示词模板调用模型,让模型的回答更准确。
提示词设置示例:
[{"prompt":"you are a math expert","role":"system"},{"prompt":"Q: {question}\n Please answer the question.","role":"user"}]
使用效果:
问题:1+1=?
实际对话:
{
"model": "model",
"messages": [
{
"role": "system",
"content": "you are a math expert"
},
{
"role": "user",
"content": "Q: 1+1=?\n Please answer the question."
}
],
"temperature": 0.7,
"top_p": 0.95,
"presence_penalty": 0.5,
"frequency_penalty": 0.5,
"stream": false
}
- 导入评测集时绑定
图7 JSONL格式
图8 CSV格式
- 已创建的评测集设置提示词模板
单击“配置提示词”下方想要配置提示词的分类名称,然后单击“配置提示词”,进行提示词配置。图10 基本信息
图11 提示词配置
图12 已配置
设置离线结果
在模型评估过程中,为了提高效率和减少资源消耗,有时需要直接使用已有的离线评测结果,而不是重新调用模型进行评估。评测任务执行时,不调用模型,直接使用评测集绑定的离线结果。有三种方式给评测集绑定离线结果,分别是:1. 导入评测集时绑定;2. 已创建的评测集,上传离线结果;3. 从评测报告里导入离线结果。
- 导入评测集时绑定
在“创建评测集”页面,选择excel格式,在上传的excel的表头增加“offline-”开头的列,“offline-”开头的列名表示离线结果名称,值表示每个用例的模型回答。可以新增最多不超过10个“offline-”开头的列,一次绑定多个离线结果。
图13 评测集导入
图14 excel格式样例
- 已创建的评测集,上传离线结果
在自定义评测集列表的中选择任意评测集,单击“更多 > 导入离线任务”,弹出“导入离线结果”对话框,如图16。
- 填写“评测模型名称”。
- 上传excel格式的离线结果文件,离线结果文件填写规则可以参考样例文件,如图14 excel格式模板。离线结果excel的序号列需要和评测集用例的序号对应,以便把离线结果的模型回答关联到评测集用例,“offline-”开头的列名表示离线结果名称,值表示每个用例的模型回答。可以新增最多不超过10个“offline-”开头的列,一次绑定多个离线结果。
图15 评测集列表
- 从评测报告里导入离线结果
- 在“评测任务”页面,选择执行成功的NLP评测任务,单击“评测报告”,进入“评测报告”页面。
- 在“评测概览”下方的“服务结果分析”栏目,选择“导入离线结果”。
图18 导入离线结果
- 在弹框中输入“离线结果集名称”,单击“确定”。
图19 离线结果集名称
查看离线结果
可以在评测集详情页面中查看离线结果导入历史任务,以及导入的数据,具体如下:
进入“评测集管理”页面,单击评测集名称,进入评测集详情页面,选择“评测集明细”页签。
单击“离线结果导入历史”,可查看历史导入操作的执行结果。
单击“目录总览”下面的离线结果名称,在右侧表格的模型回答列可查看导入的离线结果数据。




