构建模型评测任务

大模型评测是测试和衡量大模型在现实世界情境中表现如何的过程，是了解大模型性能的关键。能够帮助用户识别模型的优缺点，确保其在实际应用中的有效性，能够胜任特定任务并满足相关要求。在对训练好的NLP大模型进行评测时，首先需要构建评测集。

评测数据集要求：
主要考验模型的知识记忆能力和文本理解能力。具体可分为通用能力和行业能力。
- 通用能力：主要包含通用领域的数据集评测任务，如文本分类、逻辑推理、情感分析、问答系统等任务。
- 行业能力：主要包含特定领域的数据集评测任务，如金融实体识别、金融文本分类、金融内容生成等任务。
模型评测维度与标准：
- 完整性：确定大模型的响应是否完全解决用户的问题。
- 文本相似性：将生成的文本与参考文本进行比较，评估它们的相似度，并给出得分以理解大模型的表现。
- 回答准确性：衡量大模型基于事实的正确性回答问题的能力。
- 相关性：确定大模型对特定提示或用户问题的响应相关性。
- 有害性：确定大模型输出中冒犯性或有害语言的百分比。
- 任务特定指标：与任务类型相关。如分类任务需要查看分类的精确率、召回率和F-score，语言建模任务需要查看回答的困惑度，文本生成任务需要考虑模型回答与真实数据的重叠度和覆盖度。
创建评测数据集：
- 使用开源评测集：可以自行下载业内公开的评测集，如OpenCompass网站中就包含了上百个开源评测集，覆盖了通用和领域效果的评测。
- 创建特定评测集：如需评测模型的领域知识能力，可以使用同源数据集构建实体识别、文本分类或内容生成等评测集，精确率、召回率和F-score作为评测指标。

在ModelArts Studio平台上创建评测数据集

评测集支持从本地上传、OBS文件和数据工程数据集导入。

从本地上传或OBS文件导入时：

登录ModelArts Studio平台，进入所需空间。
在左侧导航栏中选择“评测中心 > 评测集管理”，单击界面右上角“创建评测集”。
在“创建评测集”页面选择所需要的“模型类型”、“文件格式”、“导入来源”，并单击“选择路径”上传数据文件。
图1 导入评测集

从数据工程数据集创建时：

登录ModelArts Studio平台，进入所需空间。
在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”，单击界面右上角“创建导入任务”。
在“创建导入任务”页面选择所需要的“数据集类型”、“文件格式”、“导入来源”，并单击“存储位置”上传数据文件。
上传数据文件后，填写“数据集名称”与“描述”，单击“立即创建”。
在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”，单击界面右上角“创建发布任务”。
在“创建发布任务”页面选择数据集模态并选择数据集文件。
单击“下一步”，选择数据用途、数据集可见性、使用场景、格式配置，填写名称，单击“确定”。

该方式创建评测数据集的步骤与创建训练数据集一致，详细过程请参考构建NLP大模型增量预训练数据集

在ModelArts Studio平台上创建评测任务

NLP大模型支持人工评测、自动评测两种评测模式。

人工评测：通过人工创建的评测数据集和评测指标项对模型生成的回答进行评测，评测时需要人工基于创建好的评测项对模型回答进行打分，评测完成后会基于打分结果生成评测报告。

自动评测：包含“基于规则”与“基于大模型”两种评测规则。

基于规则（相似度/准确率）自动对模型生成的回答进行评测。用户可使用评测模板中预置的专业数据集进行评测，或者自定义评测数据集进行评测。支持的预置数据集如。
基于大模型，使用大模型对被评估模型的生成结果进行自动化打分，适用于开放性或复杂问答场景，包含评分模式与对比模式。

表1 预置评测集
数据集类别	数据集	说明
通用知识与技能	常识知识	评测模型对于日常生活基本知识和信息的掌握程度，包括历史、地理、文化等多个方面的基础认知。
	数学能力	评测模型解决数学问题的能力，包括算数运算、代数方程求解、几何图形分析能力等。
	逻辑推理	评测模型根据已知信息进行合理推断和分析的能力，涉及演绎，归纳等多种逻辑思维过程。
	中文能力	评测大模型在中文语言和文化背景下的高级知识和推理能力。
领域知识	金融领域	评测大模型在金融领域的能力，包括快速理解和解释复杂的金融概念，风险预测和数据分析，投资建议以及金融决策支持等。

创建自动评测任务：

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。
在左侧导航栏中选择“评测中心 > 评测任务”，单击界面右上角“创建自动评测任务”。

在“创建自动评测任务”页面，参考表2完成部署参数设置。

表2 NLP大模型自动评测任务参数说明（基于规则）
参数分类	参数名称	参数说明
选择服务	模型类型	选择“大语言模型”。
选择服务	服务来源	本案例中选择“已部署服务” 支持已部署服务、外部服务两种选项。单次最多可评测10个模型。已部署服务：选择部署至ModelArts Studio平台的模型进行评测。外部服务：通过API的方式接入外部模型进行评测。选择外部服务时，需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。请求体支持openai、tgi、自定义三种格式。openai格式即是由OpenAI公司开发并标准化的一种大模型请求格式；tgi格式即是Hugging Face团队推出的一种大模型请求格式。接口的响应体需要按照jsonpath语法要求进行填写，jsonpath语法的作用是从响应体的json字段中提取出所需的数据。
评测配置	评测规则	选择“基于规则”：基于规则自动打分，即基于相似度/准确率进行打分，对比模型预测结果与标注数据的差异，适合标准选择题或简单问答场景。
	评测数据集	本案例中选择“预置评测集”，在评测数据集中选择 “通用知识与技能 > 常用知识&中文能力”，以及“领域知识 > 金融领域”。预置评测集：使用预置的专业数据集进行评测。自定义评测集：由用户指定评测指标（F1分数、准确率、BLEU、Rouge）并上传评测数据集进行评测。选择“自定义评测集”时需要上传待评测数据集。
	评测结果存储位置	模型评测结果的存储位置。
基本信息	任务名称	填写评测任务名称。
基本信息	描述	填写评测任务描述。