更新时间:2026-04-16 GMT+08:00
分享

模型评测功能说明

模型评测功能介绍

模型评测是测试和衡量大模型在现实世界情境中表现如何的过程,是了解大模型性能的关键。

效果优秀的模型需要保证模型拥有良好的泛化能力,即模型不仅要在已给定的数据(训练数据)上表现良好,还要能够在未见过的数据上也达到类似的效果。为了实现这一目标,模型评测是必不可少的环节。

在ModelArts模型的开发流程中,模型评测是在完成模型训练后,对尚未投入使用的模型做多方位评测,只有经过评测后的模型,才能部署上线并使用。是模型开发工具链的关键环节。

为什么需要模型评测

模型评测能够帮助用户识别模型的优缺点,确保其在实际应用中的有效性,能够胜任特定任务并满足相关要求。

在收集评估数据集时,必须保持数据集的独立性和随机性,确保收集到的数据能够代表现实世界的样本数据。这有助于避免对评估结果产生偏见,从而更准确地反映模型在不同场景下的表现。通过使用评估数据集对模型进行评估,开发者可以了解模型的优缺点,从而找到优化方向。

模型评测对开发者的核心价值:

  • 验证训练效果:衡量微调/增量预训练后模型的能力提升程度。
  • 发现优化方向:定位模型在特定任务上的薄弱环节,指导后续迭代。
  • 支撑部署决策:以量化指标判断模型是否达到上线标准。
  • 对比模型选型:在多个候选模型中选择最适合业务场景的版本。
  • 满足合规要求:提供模型能力的量化证据,支持审计与合规。

模型评测场景

模型评测主要考验模型的知识记忆能力和文本理解能力。具体可分为通用能力和行业能力。以下将分别介绍通用能力评测和行业能力评测的使用场景。

通用能力评测

通用能力:主要包含通用领域的数据集评测任务,如文本分类、逻辑推理、情感分析、问答系统等任务。

典型场景:

  • 文本分类准确率评测。
  • 逻辑推理能力评测。
  • 情感分析正确率评测。
  • 阅读理解与问答系统评测。
  • 文本摘要质量评测。
  • 机器翻译流畅度评测。

推荐数据集来源:ModelArts提供了开源评测集的管理功能,便于用户能够方便使用开源数据集,对相关大模型做更加精准高效的评测。

行业能力评测

行业能力:主要包含特定领域的数据集评测任务,如金融实体识别、金融文本分类、催收意图识别等任务。

典型场景:

  • 金融行业:实体识别、合同条款分类、风控意图识别。
  • 医疗行业:医学问答、病历摘要、药物信息抽取。

推荐数据集来源: 创建特定评测集:如需评测模型的领域知识能力,可以使用同源数据集构建实体识别、文本分类或内容生成等评测集,精确率、召回率和F-score作为评测指标。

模型评测类型

ModelArts提供了功能强大的模型评测功能。支持人工评测、自动评测两种评测模式。

自动评测

自动评测:包含"基于规则"、"基于大模型"两种规则。

基于规则(相似度/准确率)自动对模型生成的回答进行评测。用户可使用评测模板中预置的专业数据集进行评测,或者自定义评测数据集进行评测。

适用范围 有明确标准答案的封闭式任务,如分类、实体识别、选择题问答等。

运行方式 系统自动将模型输出与评测数据集中的参考答案进行比对,基于相似度算法或准确率规则计算评测得分。

基于大模型,使用大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景,包含评分模式与对比模式。

适用范围: 没有唯一标准答案的开放式任务,如创意写作、开放式问答、对话生成等。

两种子模式:如表1所示。

表1 基于大模型评测的子模式

子模式

描述

典型用途

评分模式

使用裁判大模型对被测模型的生成结果进行多维度评分。

评估单个模型的生成质量。

对比模式

使用裁判大模型同时对比两个模型的输出,给出优劣判断。

模型A/B选型对比。

人工评测

人工评测:通过人工创建的评测数据集和评测指标项对模型生成的回答进行评测,评测时需要人工基于创建好的评测项对模型回答进行打分,评测完成后会基于打分结果生成评测报告。

适用范围: 需要人类主观判断的场景,如回答的风格、语气、专业性、安全性等难以用自动化规则衡量的维度。

运行方式: 在人工评测页面对每条数据进行评估并打分,直到所有数据评估完成后,单击"提交",提交评估结果。

相关文档