调用预置大语言模型非流式模型服务
功能介绍
调用大语言模型推理服务,根据用户问题,获取大语言模型的回答,大语言模型完整生成回答后一次性返回。
URI
POST /v1/model-market/public-service/{modelName}/chat
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
modelName |
是 |
String |
模型名称,目前支持baichuan-13b-chat、chatglm3-6b。 |
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
history |
否 |
Array of Array of objects |
历史对话信息。 |
max_length |
否 |
Integer |
输入加输出最大token数。 |
max_new_tokens |
否 |
Integer |
输出最大token数。 |
query |
是 |
String |
对话输入。 |
repetition_penalty |
否 |
Float |
重复惩罚。 |
temperature |
否 |
Float |
温度。 |
system |
否 |
String |
角色。 |
do_sample |
否 |
Boolean |
是否概率采样token得到结果。 |
top_p |
否 |
Float |
多样性。 |
响应参数
状态码: 200
参数 |
参数类型 |
描述 |
---|---|---|
history |
Array of objects |
历史对话信息。 |
query |
String |
对话输入。 |
input_token_length |
Integer |
输入token数。 |
output_token_length |
Integer |
输出token数。 |
response |
String |
响应信息。 |
request_id |
String |
请求ID。 |
请求示例
https://{endpoint}/v1/model-market/public-service/{modelName}/chat { "query" : "请介绍一下你自己", "history" : [ ], "system" : "你是一名程序员", "do_sample" : true, "max_length" : 2048, "max_new_tokens" : 1024, "temperature" : 0.8, "top_p" : 0.1, "repetition_penalty" : 1.1 }
响应示例
状态码: 200
OK
{ "input_token_length" : 10, "response" : "我是一名人工智能助手,擅长处理各种问题,帮助用户解答疑问、提供建议和执行任务。我的知识库不断更新,可以为用户提供最新的信息和最专业的建议。我可以帮助用户编写代码、优化算法、分析数据以及其他各种编程需求。此外,我还具备自然语言处理能力,可以与用户进行流畅的对话,提供实时的帮助和支持。", "query" : "请介绍一下你自己", "history" : [ [ "请介绍一下你自己", "我是一名人工智能助手,擅长处理各种问题,帮助用户解答疑问、提供建议和执行任务。我的知识库不断更新,可以为用户提供最新的信息和最专业的建议。我可以帮助用户编写代码、优化算法、分析数据以及其他各种编程需求。此外,我还具备自然语言处理能力,可以与用户进行流畅的对话,提供实时的帮助和支持。" ] ], "output_token_length" : 82, "request_id" : "7f340105-7243-45c6-9388-2d32603c24ea-1706237665137234" }
状态码
状态码 |
描述 |
---|---|
200 |
OK |
201 |
Created |
401 |
Unauthorized |
403 |
Forbidden |
404 |
Not Found |
错误码
请参见错误码。