智能生成G-Eval评估步骤 - GenerateOpsEvaluatorEvaluationSteps
功能介绍
该接口用于根据用户提供的规则描述(criteria),利用大模型自动生成结构化的评估步骤。
通过自适应的方式降低用户编写评估提示词的门槛,提升评估器配置效率。
约束限制:
典型应用场景:
用户在创建自定义评估器时,只需输入自然语言描述的规则描述,系统即可自动生成规范的评估步骤。
调用方法
请参见如何调用API。
授权信息
账号根用户具备所有API的调用权限,如果使用账号下的IAM用户调用当前API,该IAM用户需具备如下身份策略权限,更多的权限说明请参见权限和授权项。
| 授权项 | 访问级别 | 资源类型(*为必须) | 条件键 | 别名 | 依赖的授权项 |
|---|---|---|---|---|---|
| agentarts:evaluator:generateOpsEvaluatorEvaluationSteps | Write | - | - | - | - |
URI
POST /v1/ops/evaluators/evaluation-steps/generate
请求参数
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| criteria | 是 | String | 参数解释: 评估标准描述,用于告知模型需要评估的维度和判断依据。 约束限制: 取值范围: 符合自然语言规范的文本,支持中英文。 示例取值: "评估{{actual_output}}是否准确回答了{{input}},并与{{reference_output}}进行对比" |
| model_config | 是 | model_config object | 参数解释: 用于智能生成评估步骤的大模型配置。 约束限制: model_id必填;max_tokens、temperature、top_p未传时使用默认值。 取值范围: 仅支持系统已接入的大模型。 默认取值: 不涉及。 |
| 参数 | 是否必选 | 参数类型 | 描述 |
|---|---|---|---|
| model_id | 是 | String | 参数解释: 用于生成评估步骤的大模型标识符。 约束限制: 必须是系统支持的模型ID。 取值范围: 1到128个字符,支持英文、数字、点号、下划线(_)、中划线(-)和冒号。 默认取值: 不涉及。 |
| max_tokens | 否 | Integer | 参数解释: 模型生成的最大token数量,用于控制输出长度。 约束限制: 必须为正整数。 取值范围: 1到8192。 默认取值: 1000。 |
| temperature | 否 | Double | 参数解释: 温度参数,控制模型输出的随机性和创造性。值越低输出越确定,值越高输出越多样。 约束限制: 必须在0到1之间。 取值范围: 0到1。 默认取值: 0.1。 |
| top_p | 否 | Double | 参数解释: 核采样参数,控制模型从概率累积分布中采样的范围。 约束限制: 必须在0到1之间。 取值范围: 0到1。 默认取值: 0.3。 |
响应参数
状态码:200
| 参数 | 参数类型 | 描述 |
|---|---|---|
| evaluation_steps | Array of strings | 参数解释: 生成的评估步骤列表,每个元素是一个独立的评估步骤描述。 约束限制: 列表不为空,最多返回10条评估步骤;每个步骤长度为1到200个字符。 取值范围: 符合评估任务要求的自然语言步骤。 默认取值: 不涉及。 |
状态码:400
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 错误码,用于标识请求失败的具体原因。 约束限制: 格式为服务简写加数字编码,例如Agentarts.40000001。 取值范围: 服务简写为2到8位大写字母,数字编码为8位,首位通常为4、6或8。 默认取值: 不涉及。 |
| error_msg | String | 参数解释: 错误描述信息,用于说明请求失败原因。 约束限制: 长度为1到512个字符。 取值范围: 符合自然语言规范的错误描述。 默认取值: 不涉及。 |
| request_id | String | 参数解释: 请求追踪ID,用于问题定位和日志检索。 约束限制: 长度为1到128个字符。 取值范围: 系统生成的请求唯一标识。 默认取值: 不涉及。 |
状态码:422
| 参数 | 参数类型 | 描述 |
|---|---|---|
| error_code | String | 参数解释: 错误码,用于标识请求失败的具体原因。 约束限制: 格式为服务简写加数字编码,例如Agentarts.40000001。 取值范围: 服务简写为2到8位大写字母,数字编码为8位,首位通常为4、6或8。 默认取值: 不涉及。 |
| error_msg | String | 参数解释: 错误描述信息,用于说明请求失败原因。 约束限制: 长度为1到512个字符。 取值范围: 符合自然语言规范的错误描述。 默认取值: 不涉及。 |
| request_id | String | 参数解释: 请求追踪ID,用于问题定位和日志检索。 约束限制: 长度为1到128个字符。 取值范围: 系统生成的请求唯一标识。 默认取值: 不涉及。 |
请求示例
无
响应示例
状态码:200
生成成功
{
"evaluation_steps" : [ "阅读 input,明确用户提出的问题和期望回答范围。", "阅读 retrieval_context,提取可用于支持回答的关键事实。", "检查 actual_output 中的核心结论是否能被 retrieval_context 明确支持。" ]
} 状态码:400
请求参数错误
{
"error_code" : "EVAL.40000001",
"error_msg" : "criteria 长度必须在 10 到 2000 字符之间"
} 状态码:422
模型调用失败
{
"error_code" : "EVAL.60000001",
"error_msg" : "生成评估步骤失败"
} 状态码
| 状态码 | 描述 |
|---|---|
| 200 | 生成成功 |
| 400 | 请求参数错误 |
| 422 | 模型调用失败 |
错误码
请参见错误码。