更新时间:2025-09-16 GMT+08:00
分享

创建CV大模型评测数据集

效果优秀的模型需要保证模型拥有良好的泛化能力,即模型不仅要在已给定的数据(训练数据)上表现良好,还要能够在未见过的数据上也达到类似的效果。为了实现这一目标,模型评测是必不可少的环节。在收集评估数据集时,必须保持数据集的独立性和随机性,确保收集到的数据能够代表现实世界的样本数据。这有助于避免对评估结果产生偏见,从而更准确地反映模型在不同情景下的表现。通过使用评估数据集对模型进行评估,开发者可以了解模型的优缺点,从而找到优化方向。

CV大模型支持基于规则的自动评测,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异。

评测数据集的创建步骤如下:

  1. 登录ModelArts Studio平台,进入所需空间。
  2. 在左侧导航栏中选择“评测中心 > 评测集管理 ”,单击界面右上角“创建评测集”。
  3. 在“创建评测集”页面选择CV大模型,选择评测模型,再选择OBS中的评测集目录(需先把评测集上传到OBS)。
    CV大模型评测数据集支持的格式见表1
    表1 评测数据集格式

    模型类型

    评测数据集格式

    图像分类

    图片+txt

    物体检测

    图片+xml

    语义分割

    评测图片+标注图片

  4. 选择好OBS路径后,填写“评测集名称”与“描述”,单击“立即创建”。
  5. 评测集任务创建后,返回“评测集管理”查看评测集任务。

    cce评测服务启动配置参数说明如下:

    pangu.studio.evaluation.import.casesets.max.number: 所有评测任务数据集最大数量,默认100条,上限与数据集所在的OBS桶容量相关

    pangu.studio.evaluation.import.casesets.max.size: 所有评测任务数据集文件总大小上限,默认512MB,上限与数据集所在的OBS桶容量相关

    pangu.studio.evaluation.import.caseset-info.cv-max-size: CV单次上传最大文件尺寸,默认100MB,上限与数据集所在的OBS桶容量相关

    pangu.studio.evaluation.import.caseset-info.cv-max-data: CV单次上传最大数据集数量,默认10000条,上限与数据集所在的OBS桶容量相关

相关文档