更新时间:2024-08-27 GMT+08:00
分享

获取知识库列表

功能介绍

获取当前账号下所有知识库列表。包括知识库ID、知识库名称、知识库状态、创建人、创建时间、更新时间等。

URI

GET /v1/koosearch/repos

表1 Query参数

参数

是否必选

参数类型

描述

name

String

知识库名称

最小长度:1

最大长度:64

status

String

状态(open-开启,close-关闭)

最小长度:1

最大长度:64

page_num

Integer

请求页码

最小值:1

最大值:65535

缺省值:1

page_size

Integer

请求限定响应结果的分页大小,例如5条/页,10条/页

最小值:1

最大值:65535

缺省值:10

tag

String

tag信息,由英文冒号连接key和value构成,如:key1:value1

最小长度:0

最大长度:65535

lod

String

level of detail, 返回结果详细程度:simple:简单 detail:详细

缺省值:detail

最小长度:1

最大长度:64

枚举值:

  • simple

  • detail

请求参数

表2 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token

最小长度:1

最大长度:1000000

响应参数

状态码: 200

表3 响应Body参数

参数

参数类型

描述

data_list

Array of KnowledgeRepoListInfo objects

知识库列表

数组长度:1 - 65535

total

Integer

总数

最小值:1

最大值:65535

region_ocr_enabled

Boolean

ocr开关

region_rac_enabled

Boolean

rac开关

表4 KnowledgeRepoListInfo

参数

参数类型

描述

id

String

知识库ID

最小长度:1

最大长度:100

name

String

知识库名称

最小长度:1

最大长度:100

detail

String

描述

最小长度:1

最大长度:100

status

String

状态

最小长度:1

最大长度:100

create_user

String

用户

最小长度:1

最大长度:100

create_time

String

创建时间

最小长度:1

最大长度:100

update_time

String

更新时间

最小长度:1

最大长度:100

top_k

Integer

topK数量

最小值:10

最大值:500

prompt

String

prompt

最小长度:0

最大长度:8192

common_prompt

String

通用prompt

最小长度:0

最大长度:8192

rerank_enabled

Boolean

rerank开关

moderate_enabled

Boolean

内容审核开关

search_plan_enabled

Boolean

搜索规划开关

query_rewrite_enabled

Boolean

改写开关

reference_count

Integer

参考文档数量。参考文档指最终和query一起输入给NLP模型,用于生成最终答案的文档

最小值:1

最大值:10

fields

Array of KnowledgeRepoFieldSchema objects

字段描述

数组长度:1 - 100

search_threshold

Float

搜索接口过滤的阈值,精排关闭时,阈值为0-200,精排打开时,阈值为0-1

最小值:0

最大值:200

chat_ref_threshold

Float

参考文档过滤的阈值,精排关闭时,阈值为0-200,精排打开时,阈值为0-1

最小值:0

最大值:200

faq_threshold

Float

FAQ直出阈值:超过阈值的FAQ会作为答案直接输出,不需要经过大模型总结

注意事项: 1.参数值小于等于0时,表示FAQ不直出 2.旧版本query2doc,精排关闭时,阈值为0-200,精排打开时,阈值为0-1 3.新版本query2query,阈值为0-1

最小值:0

最大值:200

embedding_model

String

embedding模型名称

最小长度:1

最大长度:64

rerank_model

String

rerank模型名称

最小长度:1

最大长度:64

nlp_model

String

nlp模型名称

最小长度:1

最大长度:64

file_extract

FileExtract object

文档解析详情

search_plan_category_ids

Array of strings

搜索规划category类型配置 default.category.list[0].id=talk default.category.list[0].category=闲聊类 default.category.list[0].locale=zh

default.category.list[1].id=language_task default.category.list[1].category=语言任务类 default.category.list[1].locale=zh

default.category.list[2].id=human default.category.list[2].category=人设类 default.category.list[2].locale=zh

default.category.list[3].id=common default.category.list[3].category=通用知识类 default.category.list[3].locale=zh

default.category.list[4].id=special_knowledge default.category.list[4].category=行业知识类 default.category.list[4].locale=zh

最小长度:0

最大长度:10

数组长度:0 - 10

language_id

String

知识库语言ID

最小长度:2

最大长度:4

cache_enabled

Boolean

是否开启缓存

session_config

SessionConfig object

缓存策略

answer_reference_enabled

Boolean

是否开启引用

answer_image_reference_enabled

Boolean

是否开启图文并茂

extend_config

KnowledgeRepoExtendConfig object

知识库扩展配置

refs

String

引用知识库标识列表,以逗号分隔

最小长度:0

最大长度:1024

表5 KnowledgeRepoFieldSchema

参数

参数类型

描述

name

String

字段名

最小长度:1

最大长度:100

field_type

String

字段类型

最小长度:1

最大长度:100

name_zh

String

字段中文名

最小长度:1

最大长度:100

表6 FileExtract

参数

参数类型

描述

parse_conf

ParseConf object

文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页

split_conf

SplitConf object

拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等

表7 ParseConf

参数

参数类型

描述

ocr_enabled

Boolean

ocr增强

缺省值:false

image_enabled

Boolean

图片解析

缺省值:false

header_footer_enabled

Boolean

解析页眉页脚

缺省值:false

catalog_enabled

Boolean

解析目录页

缺省值:false

image_conf

String

图片解析开启后(TEXT 提取图片文本、IMAGE 保留原图)

缺省值:TEXT

枚举值:

  • TEXT

  • IMAGE

表8 SplitConf

参数

参数类型

描述

split_mode

String

分段设置/层级解析模型

  • LENGTH-长度拆分,即为字数拆分

  • CATALOG-层级分段下的自动解析

  • RULE- 层级分段下的规则解析

  • AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式

缺省值:AUTO

枚举值:

  • LENGTH

  • CATALOG

  • RULE

  • AUTO

separator_ids

Array of strings

分段标识符ID列表

文件解析分类

default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en

default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh

default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en

default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=! default.separator.list[3].locale=zh

default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en

default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=? default.separator.list[5].locale=zh

default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en

default.separator.list[7].id=comma_zh default.separator.list[7].separator=, default.separator.list[7].locale=zh

default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en

最小长度:1

最大长度:128

数组长度:1 - 100

rule_regex_id

String

用户定义解析规则ID

最小长度:1

最大长度:256

chunk_size

Integer

分段预计长度

最小值:0

最大值:6000

缺省值:500

title_level

Integer

标题层级深度

最小值:1

最大值:10

缺省值:3

combine_title

Boolean

false 保留最后一级 true 保存多标题组合

缺省值:false

merge_titles

Boolean

是否跨标题合并,不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果

表9 SessionConfig

参数

参数类型

描述

similarity_threshold

Float

命中相似度阈值

最小值:0.1

最大值:1.0

answer_select_policy

String

缓存命中选择策略 FIRST:选择第一个命中 RANDOM:随机选择

枚举值:

  • FIRST

  • RANDOM

eviction

Eviction object

缓存过期策略

model_name

String

query2query模型名称

最小长度:1

最大长度:32

表10 Eviction

参数

参数类型

描述

policy

String

缓存过期策略 LRU:(Least Recently Used) now - accessTime > ttl 清除 FIFO:(First In First Out) now - createTime > ttl 清除 LFU:(Least Frequency Used)hit_count < 阈值的清除

最小长度:1

最大长度:100

枚举值:

  • LRU

  • FIFO

  • LFU

ttl

Long

缓存过期时间 毫秒

最小值:0

最大值:31536000000

hit_count_threshold

Long

缓存命中次数阈值

最小值:1

最大值:10000

表11 KnowledgeRepoExtendConfig

参数

参数类型

描述

extend_context

Boolean

是否扩展长上下文。提供更广泛的上下文,以生成完整回答。

缺省值:false

effective_input_length

Integer

效果最好的上下文长度,与模型相关,确保输入令牌的有效长度以保证最佳输出 考虑到多轮对话,建议控制在模型上下文长度的60%(向上取整)。

最小值:2

最大值:128

top_p

Float

通过限制词汇的选择来控制生成文本的多样性。值越高,候选单词越多,文本多样性越高。

最小值:0.1

最大值:1

缺省值:0.1

max_tokens

Integer

模型生成最大新词数

最小值:1

最大值:131072

缺省值:131072

chat_temperature

Float

非搜索增强模型生成多样性

最小值:0

最大值:1

search_temperature

Float

搜索增强模型生成多样性

最小值:0

最大值:1

缺省值:0.3

presence_penalty

Float

文本重复度

最小值:-2

最大值:2

缺省值:0

use_system_prompt

Boolean

是否使用系统Prompt,与盘古RAG场景Prompt标准拼接方案保持一致

缺省值:false

system_prompt

String

系统Prompt,注意: 1.当 use_system_prompt为true时必填 2.不需要拼接query

最小长度:0

最大长度:8192

请求示例

/v1/koosearch/repos?page_num=1&page_size=10&name=知识&status=open

响应示例

状态码: 200

知识库列表响应体

{
  "data_list" : [ {
    "id" : "12369797",
    "name" : "知识库1",
    "detail" : "金融知识库",
    "status" : "OPEN",
    "create_user" : "",
    "create_time" : "1235356",
    "update_time" : "1235356",
    "fields" : [ {
      "name" : "",
      "field_type" : "",
      "name_zh" : ""
    } ]
  } ],
  "total" : 10
}

状态码

状态码

描述

200

知识库列表响应体

400

请求体参数错误

500

内部异常

错误码

请参见错误码

相关文档