文档首页/ 智果（AgentArts）智能体平台/ API参考/ API/ 评估/ 评估器管理/ 智能生成G-Eval评估步骤 - GenerateOpsEvaluatorEvaluationSteps

更新时间：2026-07-24 GMT+08:00

智能生成G-Eval评估步骤 - GenerateOpsEvaluatorEvaluationSteps

功能介绍

该接口用于根据用户提供的规则描述(criteria)，利用大模型自动生成结构化的评估步骤。

通过自适应的方式降低用户编写评估提示词的门槛，提升评估器配置效率。

约束限制：

criteria长度必须在1到20000之间。
criteria必须包含{{}}格式的变量。
变量需用双大括号包裹。

典型应用场景：

用户在创建自定义评估器时，只需输入自然语言描述的规则描述，系统即可自动生成规范的评估步骤。

调用方法

请参见如何调用API。

授权信息

账号根用户具备所有API的调用权限，如果使用账号下的IAM用户调用当前API，该IAM用户需具备如下身份策略权限，更多的权限说明请参见权限和授权项。

授权项	访问级别	资源类型（*为必须）	条件键	别名	依赖的授权项
agentarts:evaluator:generateOpsEvaluatorEvaluationSteps	Write	-	-	-	-

URI

POST /v1/ops/evaluators/evaluation-steps/generate

请求参数

表1 请求Body参数
参数	是否必选	参数类型	描述
criteria	是	String	参数解释：评估标准描述，用于告知模型需要评估的维度和判断依据。约束限制：长度必须在1到2000字符之间。必须包含至少一个用双大括号{{}}包裹的变量。取值范围：符合自然语言规范的文本，支持中英文。示例取值： "评估{{actual_output}}是否准确回答了{{input}}，并与{{reference_output}}进行对比"
model_config	是	OpsGenerateEvaluatorEvaluationStepsModelConfig object	参数解释：用于智能生成评估步骤的大模型配置。约束限制： model_id必填；max_tokens、temperature、top_p未传时使用默认值。取值范围：仅支持系统已接入的大模型。默认取值：不涉及。

表2 OpsGenerateEvaluatorEvaluationStepsModelConfig
参数	是否必选	参数类型	描述
model_id	是	String	参数解释：用于生成评估步骤的大模型标识符。约束限制：必须是系统支持的模型ID。取值范围： 1到128个字符，支持英文、数字、点号、下划线（_）、中划线（-）和冒号。默认取值：不涉及。
max_tokens	否	Integer	参数解释：模型生成的最大token数量，用于控制输出长度。约束限制：必须为正整数。取值范围： 1到8192。默认取值： 1000。
temperature	否	Double	参数解释：温度参数，控制模型输出的随机性和创造性。值越低输出越确定，值越高输出越多样。约束限制：必须在0到1之间。取值范围： 0到1。默认取值： 0.1。
top_p	否	Double	参数解释：核采样参数，控制模型从概率累积分布中采样的范围。约束限制：必须在0到1之间。取值范围： 0到1。默认取值： 0.3。

响应参数

状态码：200

表3 响应Body参数
参数	参数类型	描述
evaluation_steps	Array of strings	参数解释：生成的评估步骤列表，每个元素是一个独立的评估步骤描述。取值范围：符合评估任务要求的自然语言步骤。

状态码：400

表4 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：错误码，用于标识请求失败的具体原因。取值范围：服务简写为2到8位大写字母，数字编码为8位，首位通常为4、6或8。
error_msg	String	参数解释：错误描述信息，用于说明请求失败原因。取值范围：符合自然语言规范的错误描述。
request_id	String	参数解释：请求追踪ID，用于问题定位和日志检索。取值范围：系统生成的请求唯一标识。

状态码：422

表5 响应Body参数
参数	参数类型	描述
error_code	String	参数解释：错误码，用于标识请求失败的具体原因。取值范围：服务简写为2到8位大写字母，数字编码为8位，首位通常为4、6或8。
error_msg	String	参数解释：错误描述信息，用于说明请求失败原因。取值范围：符合自然语言规范的错误描述。
request_id	String	参数解释：请求追踪ID，用于问题定位和日志检索。取值范围：系统生成的请求唯一标识。

请求示例

POST https://api.example.com/v1/ops/evaluators/evaluation-steps/generate

{
  "criteria" : "评估{{actual_output}}是否准确回答了{{input}}，并与{{reference_output}}进行对比",
  "model_config" : {
    "model_id" : "deepseek-v3.2",
    "max_tokens" : 1000,
    "temperature" : 0.1,
    "top_p" : 0.3
  }
}

响应示例

状态码：200

生成成功

{
  "evaluation_steps" : [ "阅读 input，明确用户提出的问题和期望回答范围。", "阅读 retrieval_context，提取可用于支持回答的关键事实。", "检查 actual_output 中的核心结论是否能被 retrieval_context 明确支持。" ]
}

状态码：400

请求参数错误

{
  "error_code" : "EVAL.40000001",
  "error_msg" : "criteria 长度必须在 1 到 2000 字符之间"
}

状态码：422

模型调用失败

{
  "error_code" : "EVAL.60000001",
  "error_msg" : "生成评估步骤失败"
}

状态码

状态码	描述
200	生成成功
400	请求参数错误
422	模型调用失败

错误码

请参见错误码。

父主题： 评估器管理

上一篇：评估器调试 - DebugOpsEvaluator

下一篇：获取评估器筛选选项列表 - ListOpsEvaluatorFilterOptions

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问