任务完成度

任务完成度评估器

表1 评估器信息
分类		详情
基础信息	评估器名称	任务完成度
效果说明	功能概述	通过比对用户输入与Agent输出，判断任务是否成功完成。
	评估方式	LLM评估
	评估目标	文本、任务完成
	应用场景	评估智能体是否准确理解并完整执行了用户指令，适用于端到端的评估Agent输出是否符合用户预期目标。
评分标准	1.0分	满足所有要求，逻辑严谨，没有任何错误。
评分标准	0.0分	未能满足要求，偏离目标，存在严重事实错误，或仅提供了无意义的礼貌性回复。

评估器参数说明：

输入格式示例：

{
  "input": "请列出三个中国著名的历史人物。",
  "actual_output": "孔子、秦始皇、李白。"
}

输出格式示例：

{
  "score": 1.0,
  "reason": "Agent 准确响应用户请求，列出三位中国著名历史人物，内容完整、无误，符合要求，因此得分为1.0。"
}

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨