文档首页/ Flexus云服务_Flexus企业搜索服务/ API参考/ 知识库管理/ 修改知识库配置

更新时间：2024-08-27 GMT+08:00

查看PDF

修改知识库配置

功能介绍

修改知识库配置。

包括：

解析设置：是否使用OCR增强、是否需要解析图片、是否需要解析页眉页脚、是否需要解析目录页
文档拆分设置：自动分段、长度分段（按文本长度分段）、层级分段（按小标题分段，可自定义小标题解析规则）
搜索模型设置：rerank模型配置
NLP模型设置：生成模型选择
其他设置：召回数量、精排开关、参考文档数量、意图分类、Query改写开关

URI

PUT /v1/koosearch/repos/{repo_id}

表1 路径参数
参数	是否必选	参数类型	描述
repo_id	是	String	知识库ID，1～64个字符，只能包含数字、字母、中划线和下划线。获取方式：账号登录KooSearch体验平台，在左侧导航栏选择："知识库管理" ，在此界面获取"知识库ID"字段的值，表示该知识库在向量数据库中存储的ID，具有唯一性最小长度：1 最大长度：64

请求参数

表2 请求Header参数
参数	是否必选	参数类型	描述
X-Auth-Token	是	String	接口鉴权使用的Token，Token获取方式参考：获取IAM用户Token 最小长度：1 最大长度：1000000

表3 请求Body参数
参数	是否必选	参数类型	描述
top_k	否	Integer	top_k配置。top_k指召回前k条与query相关的片段最小值：10 最大值：500
reference_count	否	Integer	参考文档数量。参考文档指最终和query一起输入给NLP模型，用于生成最终答案的文档最小值：1 最大值：10
rerank_enabled	否	Boolean	rerank开关，包含【打开、关闭】两个状态 “打开”状态下，召回的top_k结果会使用rerank模型进行重排序 “关闭”状态下，召回的top_k结果不会进行重排序
query_rewrite_enabled	否	Boolean	是否使用改写结果搜索
search_plan_category_ids	否	Array of strings	搜索规划category类型配置 default.category.list[0].id=talk default.category.list[0].category=闲聊类 default.category.list[0].locale=zh default.category.list[1].id=language_task default.category.list[1].category=语言任务类 default.category.list[1].locale=zh default.category.list[2].id=human default.category.list[2].category=人设类 default.category.list[2].locale=zh default.category.list[3].id=common default.category.list[3].category=通用知识类 default.category.list[3].locale=zh default.category.list[4].id=special_knowledge default.category.list[4].category=行业知识类 default.category.list[4].locale=zh 最小长度：0 最大长度：10 数组长度：0 - 10
file_extract	否	FileExtract object	文档解析整体配置，包含文档解析使用哪些组件、文档拆分规则
rerank_model	否	String	rerank模型名称最小长度：1 最大长度：32
pangu_nlp_model	否	String	nlp大模型名称最小长度：1 最大长度：32
search_threshold	否	Float	搜索接口过滤的阈值，精排关闭时，阈值为0-200，精排打开时，阈值为0-1 最小值：0 最大值：200
chat_ref_threshold	否	Float	参考文档过滤的阈值，精排关闭时，阈值为0-200，精排打开时，阈值为0-1 最小值：0 最大值：200
faq_threshold	否	Float	FAQ直出阈值：超过阈值的FAQ会作为答案直接输出，不需要经过大模型总结注意事项： 1.参数值小于等于0时，表示FAQ不直出 2.旧版本query2doc，精排关闭时，阈值为0-200，精排打开时，阈值为0-1 3.新版本query2query，阈值为0-1 最小值：0 最大值：200
cache_enabled	否	Boolean	是否开启缓存
session_config	否	SessionConfig object	缓存策略
answer_reference_enabled	否	Boolean	是否开启引用
answer_image_reference_enabled	否	Boolean	是否开启图文并茂
extend_config	否	KnowledgeRepoExtendConfig object	知识库扩展配置
tags	否	Array of TagInfo objects	标签列表数组长度：0 - 10
refs	否	String	引用知识库标识列表，以逗号分隔最小长度：0 最大长度：1024
name	否	String	知识库名称最小长度：1 最大长度：64
search_plan_model	否	String	search_plan模型名称最小长度：1 最大长度：32

表4 FileExtract
参数	是否必选	参数类型	描述
parse_conf	否	ParseConf object	文档解析配置，包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页
split_conf	否	SplitConf object	拆分配置，包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等

表5 ParseConf
参数	是否必选	参数类型	描述
ocr_enabled	否	Boolean	ocr增强缺省值：false
image_enabled	否	Boolean	图片解析缺省值：false
header_footer_enabled	否	Boolean	解析页眉页脚缺省值：false
catalog_enabled	否	Boolean	解析目录页缺省值：false
image_conf	否	String	图片解析开启后（TEXT 提取图片文本、IMAGE 保留原图）缺省值：TEXT 枚举值： TEXT IMAGE

表6 SplitConf
参数	是否必选	参数类型	描述
split_mode	否	String	分段设置/层级解析模型 LENGTH-长度拆分，即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分，自动识别文档格式匹配适合的拆分解析方式缺省值：AUTO 枚举值： LENGTH CATALOG RULE AUTO
separator_ids	否	Array of strings	分段标识符ID列表文件解析分类 default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=！ default.separator.list[3].locale=zh default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=？ default.separator.list[5].locale=zh default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en default.separator.list[7].id=comma_zh default.separator.list[7].separator=， default.separator.list[7].locale=zh default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en 最小长度：1 最大长度：128 数组长度：1 - 100
rule_regex_id	否	String	用户定义解析规则ID 最小长度：1 最大长度：256
chunk_size	否	Integer	分段预计长度最小值：0 最大值：6000 缺省值：500
title_level	否	Integer	标题层级深度最小值：1 最大值：10 缺省值：3
combine_title	否	Boolean	false 保留最后一级 true 保存多标题组合缺省值：false
merge_titles	否	Boolean	是否跨标题合并，不同标题段落文字较少时，会自动合并到指定的分段长度，有助于生成更全面的结果

表7 SessionConfig
参数	是否必选	参数类型	描述
similarity_threshold	是	Float	命中相似度阈值最小值：0.1 最大值：1.0
answer_select_policy	是	String	缓存命中选择策略 FIRST：选择第一个命中 RANDOM：随机选择枚举值： FIRST RANDOM
eviction	是	Eviction object	缓存过期策略
model_name	是	String	query2query模型名称最小长度：1 最大长度：32

表8 Eviction
参数	是否必选	参数类型	描述
policy	是	String	缓存过期策略 LRU:（Least Recently Used） now - accessTime > ttl 清除 FIFO:（First In First Out） now - createTime > ttl 清除 LFU:（Least Frequency Used）hit_count < 阈值的清除最小长度：1 最大长度：100 枚举值： LRU FIFO LFU
ttl	否	Long	缓存过期时间毫秒最小值：0 最大值：31536000000
hit_count_threshold	否	Long	缓存命中次数阈值最小值：1 最大值：10000

表9 KnowledgeRepoExtendConfig
参数	是否必选	参数类型	描述
extend_context	否	Boolean	是否扩展长上下文。提供更广泛的上下文，以生成完整回答。缺省值：false
effective_input_length	否	Integer	效果最好的上下文长度，与模型相关，确保输入令牌的有效长度以保证最佳输出考虑到多轮对话，建议控制在模型上下文长度的60%（向上取整）。最小值：2 最大值：128
top_p	否	Float	通过限制词汇的选择来控制生成文本的多样性。值越高，候选单词越多，文本多样性越高。最小值：0.1 最大值：1 缺省值：0.1
max_tokens	否	Integer	模型生成最大新词数最小值：1 最大值：131072 缺省值：131072
chat_temperature	否	Float	非搜索增强模型生成多样性最小值：0 最大值：1
search_temperature	否	Float	搜索增强模型生成多样性最小值：0 最大值：1 缺省值：0.3
presence_penalty	否	Float	文本重复度最小值：-2 最大值：2 缺省值：0
use_system_prompt	否	Boolean	是否使用系统Prompt，与盘古RAG场景Prompt标准拼接方案保持一致缺省值：false
system_prompt	否	String	系统Prompt，注意： 1.当 use_system_prompt为true时必填 2.不需要拼接query 最小长度：0 最大长度：8192

**表10** TagInfo
参数	是否必选	参数类型	描述
tag_key	是	String	tag key 最小长度：1 最大长度：128
tag_value	是	String	tag value 最小长度：1 最大长度：128

响应参数

状态码： 200

**表11** 响应Body参数
参数	参数类型	描述
repo_id	String	知识库ID 最小长度：1 最大长度：64

状态码： 400

**表12** 响应Body参数
参数	参数类型	描述
error_code	String	错误码最小长度：8 最大长度：36
error_msg	String	错误描述最小长度：2 最大长度：512

状态码： 500

**表13** 响应Body参数
参数	参数类型	描述
error_code	String	错误码最小长度：8 最大长度：36
error_msg	String	错误描述最小长度：2 最大长度：512

请求示例

/v1/koosearch/repos/v22cca08-a83b-4518-8abf-0666ab5d635a

{
  "rerank_model" : "string",
  "pangu_nlp_model" : "string",
  "file_extract" : {
    "parse_conf" : {
      "ocr_enabled" : false,
      "image_enabled" : false,
      "header_footer_enabled" : false,
      "catalog_enabled" : false,
      "image_conf" : "TEXT"
    },
    "split_conf" : {
      "split_mode" : "AUTO",
      "separator_ids" : [ ],
      "rule_regex_id" : "string",
      "chunk_size" : 6000,
      "title_level" : 3,
      "combine_title" : true
    }
  },
  "search_plan_category_ids" : [ "string" ],
  "rerank_enabled" : true,
  "top_k" : 500,
  "reference_count" : 10,
  "query_rewrite_enabled" : true
}

响应示例

状态码： 200

知识库ID

{
  "repo_id" : "1235abc"
}

状态码

状态码	描述
200	知识库ID
400	请求体参数错误
500	内部异常

错误码

请参见错误码。

父主题： 知识库管理

上一篇：创建知识库

下一篇：设置知识库搜索问答prompt

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

修改知识库配置

功能介绍

URI

请求参数

响应参数

请求示例

响应示例

状态码

错误码

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线