创建三方大模型评测数据集
效果优秀的模型需要保证模型拥有良好的泛化能力,即模型不仅要在已给定的数据(训练数据)上表现良好,还要能够在未见过的数据上也达到类似的效果。为了实现这一目标,模型评测是必不可少的环节。在收集评估数据集时,必须保持数据集的独立性和随机性,确保收集到的数据能够代表现实世界的样本数据。这有助于避免对评估结果产生偏见,从而更准确地反映模型在不同情景下的表现。通过使用评估数据集对模型进行评估,开发者可以了解模型的优缺点,从而找到优化方向。
三方大模型支持人工评测、自动评测两种评测模式。
- 人工评测:通过人工创建的评测数据集和评测指标项对模型生成的回答进行评测,评测时需要人工基于创建好的评测项对模型回答进行打分,评测完成后会基于打分结果生成评测报告。
- 自动评测:包含“基于规则”与“基于大模型”两种评测规则。
- 基于规则(相似度/准确率)自动对模型生成的回答进行评测。用户可使用评测模板中预置的专业数据集进行评测,或者自定义评测数据集进行评测。支持的预置数据集如表1。
- 基于大模型,使用大模型对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景,包含评分模式与对比模式。
评测集支持从本地上传、OBS文件和数据工程数据集导入
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“评测中心 > 评测集管理”,单击界面右上角“创建评测集”。
- 在“创建评测集”页面选择所需要的“模型类型”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。参见表2
数据工程数据集创建
评测数据集的创建步骤与训练数据集一致,本章节仅做简单介绍,详细步骤请参见使用数据工程构建三方大模型数据集。
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
- 在“创建导入任务”页面选择所需要的“数据集类型”、“文件格式”、“导入来源”,并单击“存储位置”上传数据文件。
- 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
- 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
- 在“创建发布任务”页面选择数据集模态并选择数据集文件。
- 单击“下一步”,选择发布格式,填写名称,选择数据集可见性,单击“确定”。
如果评测盘古大模型, 需要在发布数据集时,将数据集格式发布为“盘古格式”。