文档首页/ 应用平台 AppStage/ AppStage用户指南（AI原生应用引擎）/ 管理模型/ 评测模型

更新时间：2025-07-02 GMT+08:00

评测模型

平台支持从多个维度对模型的能力、性能进行评估，以保证模型效果，为模型选型提供可靠依据。

约束与限制

仅支持对文本对话类型的模型服务进行评测。

前提条件

评测模型前，请先通过体验模型服务功能确认模型可用。

创建评测任务

进入AI原生应用引擎。
在AI原生应用引擎的左侧导航栏选择“模型中心 > 模型评测”，单击“创建评测任务”。
在“创建评测任务”弹框中选择“通用维度评测”。

在创建评测任务页面，参照表1配置模型信息。

表1 评测任务参数说明
参数	说明
任务名称	自定义评测任务的名称。支持中英文、数字、中划线（-）、下划线（_）、点（.），长度2-36个字符，仅支持以中英文开头。
任务描述	评测任务的描述信息。
选择模型	选择待评测的模型，最多可选择3个模型，支持以下模型：我的模型API（我部署的、我接入的）预置模型API 模型服务商API 单击“模型参数配置”，配置如下参数：输出最大token数：模型在单次推理或生成内容时，能够输出的token（模型处理文本的基本单位）数量的最大值。取值范围为100~32768。温度：较高的数值会使输出更加随机，而较低的数值会使其更加集中和确定。建议该参数和“多样性”只设置1个。多样性：影响输出文本的多样性，取值越大，生成文本的多样性越强。建议该参数和“温度”只设置1个。存在惩罚：介于-2.0和2.0之间的数字。正值会尽量避免使用已出现过的词语，更倾向于生成新词语。频率惩罚：介于-2.0和2.0之间的数字。正值会尽量避免使用常见的单词和短语，更倾向于生成较少见的单词。
评测维度	支持通过以下三个维度评测模型，各维度下的细分子维度以页面展示为准。通用智能专业技能可信与AI治理

单击“创建”。

新创建的任务显示在模型评测任务列表中，任务状态为“草稿”，请参考表2运行任务。

更多操作

创建评测任务完成后，可执行如表2所示的操作。

表2 相关操作
操作	说明
运行评测任务	评测过程需要消耗大量大模型调用token，在评测前请确保余量充足，否则可能导致评测任务执行失败，您可以参考购买AI原生应用引擎订购。在模型评测任务列表中，单击操作列的“运行”，任务状态显示为“运行中”，当任务状态变为“运行完成”时，表示评测任务已执行完成。
取消运行评测任务	当任务状态为“运行中”时，在模型评测任务列表中，单击操作列的“取消”，取消任务运行。
查看评测任务详情	在模型评测任务列表中，单击任务名称，进入模型评测详情页面，详情页面根据任务所包含的模型，分页签展示各评测维度的评测执行情况，包括评测数据集、评测执行量/评测总数量、执行成功数、执行失败数及分数等，您可以执行如下操作：失败用例重试：对于当前模型下执行失败的评测数据集，单击详情页面右上角的“失败用例重试”，重新基于失败的评测数据集进行模型评测。查看评测数据：在详情列表中，单击操作列的“查看评测数据”，查看该模型某个维度的部分评测数据。
编辑评测任务	当任务状态为“草稿”时，在模型评测任务列表中，选择操作列的“更多 > 编辑”，修改任务参数。
删除评测任务	当任务状态为“运行中”时，请先取消任务，再进行删除。在模型评测任务列表中，选择操作列的“更多 > 删除”，删除任务。
下载报告	评测任务执行完成后，在模型评测任务列表中，选择操作列的“更多 > 下载报告”，下载模型评测报告。

父主题： 管理模型

上一篇：创建路由策略用于提供模型服务

下一篇：查看模型调用记录

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问