更新时间:2024-07-03 GMT+08:00
分享

评测对比

创建评测对比任务

平台支持创建2-4个评测任务结果对比。

  1. 在左侧菜单栏中单击“训练服务 > 模型评测”。
  2. 选择“评测对比”页签,单击“新建评测对比”,填写基本信息。

    图1 新建评测对比
    • 名称:对比任务名称,只能包含数字、英文、中文、下划线、中划线。
    • 描述:简要描述任务,不包含@^\#$%&*<>'|"/`,不得超过256个字符。

  3. 选择对比来源与模式。

    图2 选择对比来源与模式
    • 对比来源:可选择“已有评测任务”或“新建评估任务”。
    • 对比模式:可选择“文本对比”或“报告对比”。
      • 文本对比:仅支持对比多个(2个及以上)自定义评测任务产生的文本文件。
      • 报告对比:对于存在多个(2个及以上)内置评测任务时将自动触发内置评测的报告对比,如果同时存在多个自定义评测任务对比文件(符合要对比文件要求)也将触发评测报告对比,此时将产生2份报告对比文件。

  4. 选择任务。

    • 当对比来源为“已有评测任务”时,下拉框选择任务和对比文件。如果符合自定义评测结果对比条件(含自定义评测结果的任务数量不少于2),对于每个任务,用户须选择或填写“请选择/填写自定义待对比文件)
      图3 选择任务
    • 当对比来源为“新建评测任务”时,新建评测任务,具体步骤可参考创建评测任务

  5. 单击“新建”,在评测对比任务页面显示新创建的对比任务信息。
  6. 也可以通过在评测任务列表勾选2-4个任务(要求类别相同,且均为已完成状态)单击“对比”按钮的形式进行新建评测对比任务。

    图4 对比任务

评测对比相关操作

在“评测对比”列表,可对任务进行以下操作。

表1 评测对比相关操作

任务

操作步骤

查找对比任务

在搜索输入框中输入搜索条件,按回车键即可查询。

查看对比任务详情

单击对比任务名称,可在对比任务详情页查看该评测对比详情、报告对比、任务日志。

  • 评测对比详情:任务ID、名称、描述、状态等信息。
  • 文本对比:单击“文本对比”,查看或下载评测对比任务对比文本。
  • 报告对比:单击“报告对比”,查看或下载评测对比任务在运行过程中生成的报告。
  • 任务日志:单击“任务日志”,查看或下载评测对比任务在运行过程中生成的所有日志。

删除对比任务

  • 单击操作栏的“删除”,删除单个对比任务。
  • 勾选多个任务,单击列表上方的“删除”,可批量删除对比任务。

创建新任务

单击操作栏内的“创建新任务”,输入新对比任务名称(以“任务组名-自定义名称”的形式),同时可重新选择需要修改的参数。

停止任务

单击对比任务后的“停止”,停止评测对比任务。

文本格式约定

  • 文本对比:支持TXT、JSON文件格式。
    图5 文本对比
  • 报告对比:用户自定义评测结果如果需要使用报告对比功能,需满足Octopus格式要求,仅支持JSON文件格式,并且需要满足以下格式要求。
    表2 报告对比格式要求

    名称

    说明

    示例

    kind

    文件标识符,e-res表示评测结果可进行评测对比

    e-res

    spec

    评测结果内容 JSON格式 支持简单指标结果、带类别复杂指标结果、折线图结果

    {“accuracy”: 0.21, “fp”: 1.0, “fn”: 1.0}

    1. 简单指标结果
      { 
          "accuracy": 0.21, 
          "fn": 1.0,
         "fp": 1.0,
       }

      简单键值对,键表示指标名称,值表示该指标对应的评测结果数值。

    2. 带类别复杂指标结果
      { 
          "ap": [{"Car": 0.2, "Truck": 0.4}, 0.3], 
          "precision": [{"Car": 0.8, "Truck": 0.7}, 0.75],
         "recall": [{"Car": 0.8, "Truck": 0.9}, 0.85],
       }

      键值对,键表示指标名称,值为字典或列表。当值为列表时,第一项为各类别对应的该指标评测结果字典,第二项为所有类别的指标均值。当值为字典时,仅包含上述第一项。

    3. 折线图类指标结果
      { 
          "pr_curve": {
      "Car": [
        [0.0, 0.2, 0.4, 0.6, 0.8, 1.0],
        [1.0, 1.0, 0.8, 0.8, 0.6, 0.4]
      ] 
      }
       }

      键值对,键表示指标名称,值为字典或列表。当值为列表时,第一项为各类别对应的该指标评测结果字典,第二项为所有类别的指标均值。当值为字典时,仅包含上述第一项。

    以上各种类型可混合使用,参考完整示例如下:
    { 
        "kind": "e-res",  
         "spec": { 
          "accuracy": 0.21, 
          "fn": 1.0,
          "fp": 1.0,
          "ap": [{"Car": 0.2, "Truck": 0.4}, 0.3], 
          "precision": [{"Car": 0.8, "Truck": 0.7}, 0.75],
          "recall": [{"Car": 0.8, "Truck": 0.9}, 0.85],
          "pr_curve": {
    "Car": [
              [0.0, 0.2, 0.4, 0.6, 0.8, 1.0],
              [1.0, 1.0, 0.8, 0.8, 0.6, 0.4]
    ] 
    }
         } 
     }
分享:

    相关文档

    相关产品