模型评测功能说明

模型评测是测试和衡量大模型在现实世界情境中表现如何的过程，是了解大模型性能的关键。

效果优秀的模型需要保证模型拥有良好的泛化能力，即模型不仅要在已给定的数据（训练数据）上表现良好，还要能够在未见过的数据上也达到类似的效果。为了实现这一目标，模型评测是必不可少的环节。

在ModelArts模型的开发流程中，模型评测是在完成模型训练后，对尚未投入使用的模型做多方位评测，只有经过评测后的模型，才能部署上线并使用。是模型开发工具链的关键环节。

模型评测能够帮助用户识别模型的优缺点，确保其在实际应用中的有效性，能够胜任特定任务并满足相关要求。

在收集评估数据集时，必须保持数据集的独立性和随机性，确保收集到的数据能够代表现实世界的样本数据。这有助于避免对评估结果产生偏见，从而更准确地反映模型在不同场景下的表现。通过使用评估数据集对模型进行评估，开发者可以了解模型的优缺点，从而找到优化方向。

模型评测对开发者的核心价值：

模型评测主要考验模型的知识记忆能力和文本理解能力。具体可分为通用能力和行业能力。以下将分别介绍通用能力评测和行业能力评测的使用场景。

通用能力：主要包含通用领域的数据集评测任务，如文本分类、逻辑推理、情感分析、问答系统等任务。

典型场景：

推荐数据集来源：ModelArts提供了开源评测集的管理功能，便于用户能够方便使用开源数据集，对相关大模型做更加精准高效的评测。

行业能力：主要包含特定领域的数据集评测任务，如金融实体识别、金融文本分类、催收意图识别等任务。

典型场景：

推荐数据集来源： 创建特定评测集：如需评测模型的领域知识能力，可以使用同源数据集构建实体识别、文本分类或内容生成等评测集，精确率、召回率和F-score作为评测指标。

ModelArts提供了功能强大的模型评测功能。支持人工评测、自动评测两种评测模式。

自动评测：包含"基于规则"、"基于大模型"两种规则。

基于规则（相似度/准确率）自动对模型生成的回答进行评测。用户可使用评测模板中预置的专业数据集进行评测，或者自定义评测数据集进行评测。

适用范围：有明确标准答案的封闭式任务，如分类、实体识别、选择题问答等。

运行方式：系统自动将模型输出与评测数据集中的参考答案进行比对，基于相似度算法或准确率规则计算评测得分。

基于大模型，使用大模型对被评估模型的生成结果进行自动化打分，适用于开放性或复杂问答场景，包含评分模式与对比模式。

适用范围：没有唯一标准答案的开放式任务，如创意写作、开放式问答、对话生成等。

两种子模式：如表1所示。

表1 基于大模型评测的子模式
子模式	描述	典型用途
评分模式	使用裁判大模型对被测模型的生成结果进行多维度评分。	评估单个模型的生成质量。
对比模式	使用裁判大模型同时对比两个模型的输出，给出优劣判断。	模型A/B选型对比。