评估介绍

背景信息

随着大模型技术的不断进步和广泛应用，对模型效果的评估需求也在不断增加。在这种背景下，工作流和智能体的评估成为了AI应用开发中的关键环节。

然而，传统的评估过程存在诸多挑战。从评测集的构建到评估任务的执行，再到评估报告的输出，手工操作步骤繁多，效率低下且容易出错。手工操作不仅耗时，而且难以全面覆盖所有可能的场景，缺乏智能化的分析与总结能力。这些不足严重影响了评估的准确性和可靠性，增加了用户的负担。

为了应对这些挑战，智能体平台引入了评估功能，支持通过评估任务对智能体和工作流进行全面评估，并生成评估报告。通过自动化的评估流程，能够显著提高评估的效率和准确性。用户可以轻松构建评测集和评估器，并执行评估任务，并获得详细的评估报告，从而识别智能体或工作流在哪些场景中表现不佳，具体存在哪些问题，并进行针对性的优化，确保在实际业务场景中的稳定性。

基础概念

评估是指通过一系列标准化的数据和评估标准，对AI Agent（智能体、工作流）效果评估的过程。评估功能旨在帮助用户在多个维度上优化AI Agent，确保其在实际应用中表现更佳，同时提高开发效率和准确性。评估功能通常包括以下几个核心模块：

评测集：用于评估智能体或工作流应用回复效果的一组数据。
它通常包含两部分：输入数据和预期输出结果，验证评估对象的效果。
- 输入数据（input）：在评估任务中，输入数据是提供给评估对象的输入数据，用于测试其在不同场景下的表现。
- 预期输出（reference_output）：是理想化输出结果，作为评估对象实际输出的参考标准。通过比较评估对象的实际输出与预期输出，可以评估其准确性和可靠性。
评估器：在评估任务中充当裁判的角色，负责根据设定的规则对评估对象的回复进行评分。
评估任务：将评测集和评估器结合起来，对评估对象进行全面分析的过程。用户可以通过分析评估任务的数据，帮助自己进行业务决策。

评测流程

以下流程图清晰呈现了评估过程的全流程，让您一目了然地掌握每一步操作，轻松了解评估的完整逻辑与实施方式。

图1 评估流程

表1 评估流程
序号	流程环节	说明
1	创建评测集	评测集是用于评测智能体和工作流回复效果的一个数据集。通常包含输入和预期输出。输入作为评估对象提供输入数据，而预期输出则为评估提供了评估基准。
2	创建评估器	评估器是预设置评估规则，在评估任务中，根据评估规则对智能体和工作流回复的准确率进行评分。
3	创建评估任务	评估任务是将评测集、评估对象（即要评估的智能体或工作流）和评估器组合起来的过程。通过评估任务，对智能体或工作流回复的准确性进行评估。
4	查看评估结果	评估任务完成后，系统会生成详细的评估结果。通过分析这些结果，您可以了解智能体或工作流在处理对话时的具体表现。

应用场景

上线前评估

为了确保智能体或工作流能够满足实际业务需求并达到预期效果，在正式发布前，我们通常需要对其准确率进行评估。这一过程类似于软件开发中的质量检查，主要目的是通过在各种预设场景下测试智能体或工作流的响应，确保其表现符合预期标准。通过这种评估，我们可以提前发现并解决潜在的问题，有效降低上线后可能出现的质量问题风险，从而保证智能体或工作流的稳定性和可靠性。

父主题：评估

上一篇：评估

下一篇：创建评测集

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问