更新时间:2025-07-02 GMT+08:00
分享

评测模型

平台支持从多个维度对模型的能力、性能进行评估,以保证模型效果,为模型选型提供可靠依据。

约束与限制

仅支持对文本对话类型的模型服务进行评测。

前提条件

评测模型前,请先通过体验模型服务功能确认模型可用。

创建评测任务

  1. 进入AI原生应用引擎
  2. 在AI原生应用引擎的左侧导航栏选择“模型中心 > 模型评测”,单击“创建评测任务”。
  3. 在“创建评测任务”弹框中选择“通用维度评测”
  4. 在创建评测任务页面,参照表1配置模型信息。

    表1 评测任务参数说明

    参数

    说明

    任务名称

    自定义评测任务的名称。

    支持中英文、数字、中划线(-)、下划线(_)、点(.),长度2-36个字符,仅支持以中英文开头。

    任务描述

    评测任务的描述信息。

    选择模型

    选择待评测的模型,最多可选择3个模型,支持以下模型:

    • 我的模型API(我部署的、我接入的)
    • 预置模型API
    • 模型服务商API

    单击“模型参数配置”,配置如下参数:

    • 输出最大token数:模型在单次推理或生成内容时,能够输出的token(模型处理文本的基本单位)数量的最大值。取值范围为100~32768。
    • 温度:较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定。建议该参数和“多样性”只设置1个。
    • 多样性:影响输出文本的多样性,取值越大,生成文本的多样性越强。建议该参数和“温度”只设置1个。
    • 存在惩罚:介于-2.0和2.0之间的数字。正值会尽量避免使用已出现过的词语,更倾向于生成新词语。
    • 频率惩罚:介于-2.0和2.0之间的数字。正值会尽量避免使用常见的单词和短语,更倾向于生成较少见的单词。

    评测维度

    支持通过以下三个维度评测模型,各维度下的细分子维度以页面展示为准。

    • 通用智能
    • 专业技能
    • 可信与AI治理

  5. 单击“创建”

    新创建的任务显示在模型评测任务列表中,任务状态为“草稿”,请参考表2运行任务。

更多操作

创建评测任务完成后,可执行如表2所示的操作。

表2 相关操作

操作

说明

运行评测任务

评测过程需要消耗大量大模型调用token,在评测前请确保余量充足,否则可能导致评测任务执行失败,您可以参考购买AI原生应用引擎订购。

在模型评测任务列表中,单击操作列的“运行”,任务状态显示为“运行中”,当任务状态变为“运行完成”时,表示评测任务已执行完成

取消运行评测任务

当任务状态为“运行中”时,在模型评测任务列表中,单击操作列的“取消”,取消任务运行。

查看评测任务详情

在模型评测任务列表中,单击任务名称,进入模型评测详情页面,详情页面根据任务所包含的模型,分页签展示各评测维度的评测执行情况,包括评测数据集、评测执行量/评测总数量、执行成功数、执行失败数及分数等,您可以执行如下操作:

  • 失败用例重试:对于当前模型下执行失败的评测数据集,单击详情页面右上角的“失败用例重试”,重新基于失败的评测数据集进行模型评测。
  • 查看评测数据:在详情列表中,单击操作列的“查看评测数据”,查看该模型某个维度的部分评测数据。

编辑评测任务

当任务状态为“草稿”时,在模型评测任务列表中,选择操作列的更多 > 编辑,修改任务参数。

删除评测任务

当任务状态为“运行中”时,请先取消任务,再进行删除。

在模型评测任务列表中,选择操作列的更多 > 删除,删除任务。

下载报告

评测任务执行完成后,在模型评测任务列表中,选择操作列的更多 > 下载报告,下载模型评测报告。

相关文档