文档首页/ 智果(AgentArts)智能体平台/ API参考/ API/ 评估/ 评估器管理/ 智能生成G-Eval评估步骤 - GenerateOpsEvaluatorEvaluationSteps
更新时间:2026-06-10 GMT+08:00
分享

智能生成G-Eval评估步骤 - GenerateOpsEvaluatorEvaluationSteps

功能介绍

该接口用于根据用户提供的规则描述(criteria),利用大模型自动生成结构化的评估步骤。

通过自适应的方式降低用户编写评估提示词的门槛,提升评估器配置效率。

约束限制:

  • criteria长度必须在1到20000之间。

  • criteria必须包含{{}}格式的变量。

  • 变量需用双大括号包裹。

典型应用场景:

用户在创建自定义评估器时,只需输入自然语言描述的规则描述,系统即可自动生成规范的评估步骤。

调用方法

请参见如何调用API

授权信息

账号根用户具备所有API的调用权限,如果使用账号下的IAM用户调用当前API,该IAM用户需具备如下身份策略权限,更多的权限说明请参见权限和授权项

授权项

访问级别

资源类型(*为必须)

条件键

别名

依赖的授权项

agentarts:evaluator:generateOpsEvaluatorEvaluationSteps

Write

-

-

-

-

URI

POST /v1/ops/evaluators/evaluation-steps/generate

请求参数

表1 请求Body参数

参数

是否必选

参数类型

描述

criteria

String

参数解释:

评估标准描述,用于告知模型需要评估的维度和判断依据。

约束限制:

  • 长度必须在1到20000字符之间。

  • 必须包含至少一个用双大括号{{}}包裹的变量。

取值范围:

符合自然语言规范的文本,支持中英文。

示例取值:

"评估{{actual_output}}是否准确回答了{{input}},并与{{reference_output}}进行对比"

model_config

model_config object

参数解释:

用于智能生成评估步骤的大模型配置。

约束限制:

model_id必填;max_tokens、temperature、top_p未传时使用默认值。

取值范围:

仅支持系统已接入的大模型。

默认取值:

不涉及。

表2 model_config

参数

是否必选

参数类型

描述

model_id

String

参数解释:

用于生成评估步骤的大模型标识符。

约束限制:

必须是系统支持的模型ID。

取值范围:

1到128个字符,支持英文、数字、点号、下划线(_)、中划线(-)和冒号。

默认取值:

不涉及。

max_tokens

Integer

参数解释:

模型生成的最大token数量,用于控制输出长度。

约束限制:

必须为正整数。

取值范围:

1到8192。

默认取值:

1000。

temperature

Double

参数解释:

温度参数,控制模型输出的随机性和创造性。值越低输出越确定,值越高输出越多样。

约束限制:

必须在0到1之间。

取值范围:

0到1。

默认取值:

0.1。

top_p

Double

参数解释:

核采样参数,控制模型从概率累积分布中采样的范围。

约束限制:

必须在0到1之间。

取值范围:

0到1。

默认取值:

0.3。

响应参数

状态码:200

表3 响应Body参数

参数

参数类型

描述

evaluation_steps

Array of strings

参数解释:

生成的评估步骤列表,每个元素是一个独立的评估步骤描述。

约束限制:

列表不为空,最多返回10条评估步骤;每个步骤长度为1到200个字符。

取值范围:

符合评估任务要求的自然语言步骤。

默认取值:

不涉及。

状态码:400

表4 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

错误码,用于标识请求失败的具体原因。

约束限制:

格式为服务简写加数字编码,例如Agentarts.40000001。

取值范围:

服务简写为2到8位大写字母,数字编码为8位,首位通常为4、6或8。

默认取值:

不涉及。

error_msg

String

参数解释:

错误描述信息,用于说明请求失败原因。

约束限制:

长度为1到512个字符。

取值范围:

符合自然语言规范的错误描述。

默认取值:

不涉及。

request_id

String

参数解释:

请求追踪ID,用于问题定位和日志检索。

约束限制:

长度为1到128个字符。

取值范围:

系统生成的请求唯一标识。

默认取值:

不涉及。

状态码:422

表5 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

错误码,用于标识请求失败的具体原因。

约束限制:

格式为服务简写加数字编码,例如Agentarts.40000001。

取值范围:

服务简写为2到8位大写字母,数字编码为8位,首位通常为4、6或8。

默认取值:

不涉及。

error_msg

String

参数解释:

错误描述信息,用于说明请求失败原因。

约束限制:

长度为1到512个字符。

取值范围:

符合自然语言规范的错误描述。

默认取值:

不涉及。

request_id

String

参数解释:

请求追踪ID,用于问题定位和日志检索。

约束限制:

长度为1到128个字符。

取值范围:

系统生成的请求唯一标识。

默认取值:

不涉及。

请求示例

响应示例

状态码:200

生成成功

{
  "evaluation_steps" : [ "阅读 input,明确用户提出的问题和期望回答范围。", "阅读 retrieval_context,提取可用于支持回答的关键事实。", "检查 actual_output 中的核心结论是否能被 retrieval_context 明确支持。" ]
}

状态码:400

请求参数错误

{
  "error_code" : "EVAL.40000001",
  "error_msg" : "criteria 长度必须在 10 到 2000 字符之间"
}

状态码:422

模型调用失败

{
  "error_code" : "EVAL.60000001",
  "error_msg" : "生成评估步骤失败"
}

状态码

状态码

描述

200

生成成功

400

请求参数错误

422

模型调用失败

错误码

请参见错误码

相关文档