创建Deepseek大模型评测数据集
效果优秀的模型需要保证模型拥有良好的泛化能力,即模型不仅要在已给定的数据(训练数据)上表现良好,还要能够在未见过的数据上也达到类似的效果。为了实现这一目标,模型评测是必不可少的环节。在收集评估数据集时,必须保持数据集的独立性和随机性,确保收集到的数据能够代表现实世界的样本数据。这有助于避免对评估结果产生偏见,从而更准确地反映模型在不同情景下的表现。通过使用评估数据集对模型进行评估,开发者可以了解模型的优缺点,从而找到优化方向。
Deepseek大模型支持人工评测、自动评测两种评测模式。
- 人工评测:通过人工创建的评测数据集和评测指标项对模型生成的回答进行评测,评测时需要人工基于创建好的评测项对模型回答进行打分,评测完成后会基于打分结果生成评测报告。
- 自动评测:包含“基于规则”与“基于大模型”两种评测规则。
- 基于规则(相似度/准确率)自动对模型生成的回答进行评测。用户可使用评测模板中预置的专业数据集进行评测,或者自定义评测数据集进行评测。支持的预置数据集如表1。
- 基于大模型,使用大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景,包含评分模式与对比模式。
表1 预置评测集 数据集类别
数据集
说明
通用知识与技能
常用知识
评测模型对于日常生活基本知识和信息的掌握程度,包括历史、地理、文化等多个方面的基础认知。
数学能力
评测模型解决数学问题的能力,包括算数运算、代数方程求解、几何图形分析能力等。
逻辑推理
评测模型根据已知信息进行合理推断和分析的能力,涉及演绎,归纳等多种逻辑思维过程。
长文本
评测大模型阅读和理解较长篇幅文本材料的能力,包括提取关键信息、总结概括等内容。
中文能力
评测大模型在中文语言和文化背景下的高级知识和推理能力。
领域知识
金融领域
评测大模型在金融领域的能力,包括快速理解和解释复杂的金融概念,风险预测和数据分析,投资建议以及金融决策支持等。
评测集支持从本地上传、OBS文件和数据工程数据集导入
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“评测中心 > 评测集管理”,单击界面右上角“创建评测集”。
- 在“创建评测集”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。
图1 评测集导入
数据工程数据集创建
评测数据集的创建步骤与训练数据集一致,本章节仅做简单介绍,详细步骤请参见使用数据工程构建Deepseek大模型数据集。
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
- 在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。
Deepseek大模型评测数据集支持的格式见表2。
NLP多轮问答评测场景,请在左侧导航栏中选择"数据工程-数据获取-其他",按照以下格式导入csv多轮问答评测集。
序号,轮数,问题,参考回复
1,1,你好,你好,请问有什么可以帮助你的?
1,2,请介绍一下华为云的产品,华为云提供包括但不限于计算、存储、网络等产品服务
- 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
- 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
- 在“创建发布任务”页面选择数据集模态并选择数据集文件。
- 单击“下一步”,选择发布格式,填写名称,选择数据集可见性,单击“确定”。
如果评测盘古大模型, 需要在发布数据集时,将数据集格式发布为“盘古格式”。