评测模型
平台支持从多个维度对模型的能力、性能进行评估,以保证模型效果,为模型选型提供可靠依据。
约束与限制
仅支持对文本对话类型的模型服务进行评测。
前提条件
评测模型前,请先通过体验模型服务功能确认模型可用。
创建评测任务
- 进入AI原生应用引擎。
- 在AI原生应用引擎的左侧导航栏选择“模型中心 > 模型评测”,单击“创建评测任务”。
- 在“创建评测任务”弹框中选择“通用维度评测”。
- 在创建评测任务页面,参照表1配置模型信息。
表1 评测任务参数说明 参数
说明
任务名称
自定义评测任务的名称。
支持中英文、数字、中划线(-)、下划线(_)、点(.),长度2-36个字符,仅支持以中英文开头。
任务描述
评测任务的描述信息。
选择模型
选择待评测的模型,最多可选择3个模型,支持以下模型:
- 我的模型API(我部署的、我接入的)
- 预置模型API
- 模型服务商API
单击“模型参数配置”,配置如下参数:
- 输出最大token数:模型在单次推理或生成内容时,能够输出的token(模型处理文本的基本单位)数量的最大值。取值范围为100~32768。
- 温度:较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定。建议该参数和“多样性”只设置1个。
- 多样性:影响输出文本的多样性,取值越大,生成文本的多样性越强。建议该参数和“温度”只设置1个。
- 存在惩罚:介于-2.0和2.0之间的数字。正值会尽量避免使用已出现过的词语,更倾向于生成新词语。
- 频率惩罚:介于-2.0和2.0之间的数字。正值会尽量避免使用常见的单词和短语,更倾向于生成较少见的单词。
评测维度
支持通过以下三个维度评测模型,各维度下的细分子维度以页面展示为准。
- 通用智能
- 专业技能
- 可信与AI治理
- 单击“创建”。
新创建的任务显示在模型评测任务列表中,任务状态为“草稿”,请参考表2运行任务。
更多操作
创建评测任务完成后,可执行如表2所示的操作。
操作 |
说明 |
---|---|
运行评测任务 |
评测过程需要消耗大量大模型调用token,在评测前请确保余量充足,否则可能导致评测任务执行失败,您可以参考购买AI原生应用引擎订购。 在模型评测任务列表中,单击操作列的“运行”,任务状态显示为“运行中”,当任务状态变为“运行完成”时,表示评测任务已执行完成。 |
取消运行评测任务 |
当任务状态为“运行中”时,在模型评测任务列表中,单击操作列的“取消”,取消任务运行。 |
查看评测任务详情 |
在模型评测任务列表中,单击任务名称,进入模型评测详情页面,详情页面根据任务所包含的模型,分页签展示各评测维度的评测执行情况,包括评测数据集、评测执行量/评测总数量、执行成功数、执行失败数及分数等,您可以执行如下操作:
|
编辑评测任务 |
当任务状态为“草稿”时,在模型评测任务列表中,选择操作列的 ,修改任务参数。 |
删除评测任务 |
当任务状态为“运行中”时,请先取消任务,再进行删除。 在模型评测任务列表中,选择操作列的 ,删除任务。 |
下载报告 |
评测任务执行完成后,在模型评测任务列表中,选择操作列的 ,下载模型评测报告。 |