文档首页/ 魔坊（ModelArts）模型训推平台/ 模型评测/ 模型评测/ 管理模型评测/ 预置评测集与评测模板

更新时间：2026-04-16 GMT+08:00

预置评测集与评测模板

预置评测集

功能介绍

预置评测集是一组经过精心设计、标注和标准化的数据样本，专门用于测试、评估和量化人工智能模型在特定任务上的表现。

本次支持的预置评测集名称列表，和评测集描述见表1 预置评测集列表。

表1 预置评测集列表
名称	评测集描述
MMLU-Pro	MMLU是人工智能领域最有影响力的大模型测评基准之一，涵盖了基础数学、计算机科学、法律、历史等57项子任务，用于评测大模型的世界知识和问题解决能力。
GPQA_Diamond	GPQA_Diamond是一个由生物学、物理学和化学领域专家编写并验证的多选问答数据集，包含448个极其困难的问题。该数据集设计用于评估人工智能系统在跨学科问题上的表现，尤其针对非专家领域的问题（如物理学家回答化学问题）进行测试。
BoolQ	BoolQ是一个专为“是/否”类型问题设计的问答数据集，数据集中的问题均源自真实的查询场景，未经任何特定引导，因此更加贴近真实世界的复杂性和多样性。
AGIEval	AGIEval基准包含了多种高质量的官方入学考试、资格考试、高级竞赛，如法学院入学考试（LSAT）、大学入学考试（如中国高考和美国SAT）、数学竞赛以及律师资格考试等，在数据集的构建上，AGIEval剔除了主观题，只保留客观题（如选择题和填空题）。这些考试和竞赛不仅具有官方认可的标准，而且能够全面考察模型认知能力、知识掌握程度以及推理能力。
C-Eval	C-Eval是一个全面的中文基础数据集，涵盖了52个不同的学科和四个难度级别，用于评测大模型中文理解能力。
GSM8K	GSM8K是由OpenAI发布的大模型数据推理能力评测基准。一个由8.5K小学数学问题组成的数据集，可以评测大模型的数学推理运算能力。
MathBench	对大语言模型的数学能力进行全面评估，涵盖理论概念理解和应用问题解决两方面
ARC Challenge	ARC Challenge是一个逻辑推理和问题解决的数据集，包含了来自不同领域的问题，用于评测模型的高级推理能力。
BBH	BBH是一个包含204项任务的大型语言模型评测数据集，涵盖了语言学、儿童发展、常识推理、社会偏见、软件开发等多个领域，用于评测模型在处理困难任务时的表现。
CMMLU	CMMLU是MMLU的中文版本，涵盖了人文学科、法律、工程、数学等多个通用领域的知识，用于评测模型在中文领域的多学科知识。
OpenFinData	OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求，是目前场景最全、专业性最深的金融评测数据集。它基于东方财富实际金融业务的多样化丰富场景，旨在为金融科技领域的研究者和开发者提供一个高质量的数据资源。
FinEval	FinEval金融行业评测基准依据定量的基本方法，通过长期客观调研总结和严格的人工筛选，利用多项选择题、主客观简答题、推理规划和检索问答等超过26000道多种与实际应用场景高度一致的题型，包括了金融学术知识、金融行业知识、金融安全知识、金融智能体、金融多模态和金融严谨性，旨在全方位检验大模型在金融行业的综合应用能力。
MedMCQA	一个大规模的多项选择题问答（MCQA）数据集，旨在解决现实世界中的医学入学考试问题。
PubMedQA	PubMedQA是一个从PubMed摘要中收集的新型生物医学问答（QA）数据集。PubMedQA的任务是利用相应的摘要来回答“是/否/可能”形式的研究问题（例如：术前使用他汀类药物是否能减少冠状动脉旁路移植术后房颤的发生？）。每个PubMedQA实例由以下四部分组成：（1）一个问题，该问题要么来自现有的研究文章标题，要么基于标题衍生而来；（2）一个上下文，即相应的摘要，但不包含结论部分；（3）一个长答案，即摘要的结论部分，通常也回答了研究问题；（4）一个“是/否/可能”的答案，用于总结结论。PubMedQA是首个需要基于生物医学研究文本（尤其是其中的定量内容）进行推理才能回答问题的问答数据集。

父主题： 管理模型评测

上一篇：管理模型评测

下一篇：管理评测任务

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问