更新时间:2025-08-21 GMT+08:00

创建及修改KooSearch知识库

在使用KooSearch体验平台时,首先需要新建知识库,才能进行后续的上传数据、搜索和问答体验等操作。

进入KooSearch控制台

  1. 登录云搜索服务管理控制台
  2. 在左侧导航栏选择“KooSearch>KooSearch文档问答”,进入KooSearch文档问答页面。
  3. 选择已创建好的文档问答服务,单击操作列的“问答”,前往KooSearch控制台。

新建知识库

  1. 在KooSearch控制台,左侧导航栏选择“知识库管理”

    进入知识库管理页面。

  2. 在知识库管理页面,单击右上角“新建知识库”

    “新建知识库”页面设置知识库信息。

  3. 在创建知识库页签填写参数,单击“下一步”
    表1 新建知识库

    参数

    说明

    知识库名称

    知识库的名称。只能包含1到64位英文字母、中文、数字、中划线或者下划线,并且以字母、数字或者中文开头。

    知识库语言

    选择知识库使用的语言。目前支持以下几种语言:

    • 中文
    • 英语
    • 泰语
    • 阿拉伯语
    • 西班牙语
    • 葡萄牙语

    描述

    关于此知识库的基本描述,最多可输出100个字符。

    知识库标签

    添加知识库的标签,来区分知识库之间的不同,可以按照知识库标签去查找知识库,也可以按照知识库标签去授权给不同用户去使用。

    • 键名:自定义。
    • 键值:自定义。

    结构化数据自定义字段

    如果您需要自定义结构化数据的字段,可以在这里添加字段名和字段值,知识库创建成功后,上传结构化数据到知识库时,可以按照自定的字段去上传文件。

  4. “解析拆分设置”页签配置解析设置和拆分设置,然后单击“下一步”
    • 解析设置:勾选需要解析的能力。
      表2 解析设置

      参数

      说明

      OCR增强

      勾选后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。

      解析图片

      未勾选,在文档中遇到图片默认跳过,不处理图片。

      勾选后,有两种解析方式可供选择:

      • 提取图片文本:识别图片内文字。
      • 仅保留原图:将图片提取后上传OBS桶,便于问答图文展示。

      解析页眉页脚

      未勾选,解析结果中不包含页眉页脚。

      勾选后,解析结果中包含页眉页脚。

      解析目录页

      未勾选,解析结果中不包含目录页。

      勾选后,解析结果中包含目录页。

    • 拆分设置:即分段设置,选择分段方式。
      表3 拆分设置

      参数

      说明

      自动分段

      系统根据文档特点自动选择合适的分段方式。

      长度分段

      默认按照段落进行拆分合并,如果段落过长则通过标识符进行分段。

      • 分段标识符:分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。
      • 分段预计长度:分段的最大长度,文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[分段重叠]字符,继续向后检查,直到文档结束。

      层级分段

      先按照文章的标题层级分段,再按照段落进行拆分合并,如果段落过长则通过标识符进行分段。

      层级解析模式:可选择自动解析和规则解析。选择规则解析需要自定义层级规则。

      层级分段详情如表4所示。

      表4 层级分段

      参数

      说明

      层级解析模式

      自动解析:按照系统规则自动解析。

      规则解析:

      由于不同文档的层次结构多样且不一致,针对不同的文档可自定义其文档层次解析规则,更好地解析切分文档从而提升基于文档知识问答的准确率。

      • 自定义默认规则

        将最常见的规则,作为默认规则可选,详情请参见提供的默认规则示例

      • 自定义解析规则

        当前解析规则采用正则语言编写,可参见如表6示例。

      标题层级深度

      选择文章的标题层级深度。

      标题保存方式

      可选择“保存多标题组合”“保存最后一级标题”

      分段标识符

      分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。

      分段预计长度

      分段的最大长度,文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[分段重叠]字符,继续向后检查,直到文档结束。

      跨标题合并

      打开“跨标题合并”开关:不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果。关闭“跨标题合并”开关:不会自动合并不同标题。

      说明:
      • “层级分段”页签中有此按钮,可以自己设置开关。
      • “自动分段”页签中没有此按钮,在“自动分段”中跨标题合并功能默认打开。
      • “长度分段”不涉及此功能。
      表5 规则解析默认规则示例

      类别

      规则

      描述

      第一章

      第一节

      第一条

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})章

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})节

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})条

      以章的规则为例:

      • 中括号内大写的阿拉伯可以匹配,例如:第一章。
      • 支持1-9的阿拉伯数字匹配,例如: 第1章。
      • 最大支持中间位数出现的位数有7位。例如:第一千一百三十七章。

      节和条的规则类似。

      表6 自定义规则解析示例

      类别

      规则

      描述

      第一章

      第一节

      第一条

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})章

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})节

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})条

      /

      1

      1.1

      1.1.1

      ^(\d+\.)(?=\s)

      ^(\d+)(\.\d+)(?!\.)(?=\s)

      ^(\d+)(\.\d+)(\.\d+)(?!\.)(?=\s)

      可以匹配数字开头的段落。

      备注: [\u4e00-\u9fa5]+ 限制中文)

      例如:

      1. 简介

      1.1 说明

      1.1.1 详细说明

  5. “模型设置”页签配置好模型后,单击“下一步”
    表7 模型设置

    参数

    说明

    搜索模型设置

    • Embedding模型服务:基于盘古大模型技术的文本表示模型,将文本转化为用数值表示的向量形式,用于文本检索、聚类、推荐等场景。
    • 精排模型服务:基于盘古大模型技术的文本表示模型,将文本转化为用数值表示的向量形式,用于文本检索、聚类、推荐等场景,语义搜索场景下,加入了精排模型,提升搜索的效果。
    • 搜索规划模型服务:搜索规划模型服务提供了意图分类、多轮查询改写、复杂查询分解、时间抽取等功能,在搜索增强生成任务中,通过意图分类的结果将路由到后续不同的流程;通过改写查询词及查询分解以提高搜索的准确率。
    说明:
    • embedding模型与缓存生成模型之间存在强关联关系。在创建embedding模型时,系统会配套生成对应的缓存生成模型,若其中一个模型配置信息因意外删除,需根据相同的配置参数进行重建。例如,若embedding模型的名称为pangu_embedding,则其对应的缓存生成模型名称为pangu_embedding_faq。
    • 在创建知识库时,需要依赖embedding模型(pangu_embedding)与缓存生成模型(pangu_embedding_faq)。若缓存生成模型(pangu_embedding_faq)不存在或未授权,系统将抛出异常。此时,需由管理员检查pangu_embedding_faq模型是否存在或确认相关权限是否已授予知识库使用者。若模型缺失,需补充创建相应的pangu_embedding_faq模型;若权限不足,需为知识库使用者授予pangu_embedding_faq相关权限。

    NLP模型设置

    NLP模型服务:选择NLP模型服务。基于盘古大模型的人工智能语言模型,可进行对话互动、回答问题、协助创作。

    扩展长上下文: 如果打开了此按钮,模型在解析过程中会扩展长上下文以生成更全面结果。同时,需要设置有效输入长度,输入令牌的有效长度以保证最佳输出。

    AI搜索设置

    搜索服务类型:选择“web搜索引擎服务”或“联网增强服务”。

    搜索服务选择:选择可用的搜索引擎服务。

    深度思考模型:选择支持深度思考的模型。

  6. 进入“高级设置”页面,设置好后,单击“确定”。
    表8 高级设置

    参数

    说明

    引用定位

    打开了此按钮,可以针对回答结果定位到原文位置。

    图文结合

    展示原文引用关联图片。打开后,有三种解析方式可供选择:

    1. 仅召回语义相关图片:引用文段中图片的上下文与生成文段语义相似即召回,否则不召回;(默认选项)。
    2. 所有图片:引用文段中图片全部召回。
    3. AI召回:使用大模型的能力进行图片召回。
    说明:
    • 启用需勾选解析拆分设置->解析设置->解析图片,并选择仅保留原图。
    • 如果是修改知识库配置,历史版本或不兼容该功能,如果希望正常使用该功能,在确保购买了图文溯源相关服务后,修改文档解析方式-仅保留原图,按文档最新配置进行版本重构或者选择所需文档进行重试,生成可供召回的图片数据。
    • 当前除中文知识库外,其他语言的知识库仅支持AI召回。

    表格问答

    如果打开,可以将文档转成数据表,通过NL2SQL问答提升统计分析类的准确率。

    知识库缓存

    如果打开知识库缓存按钮,会将问答时的内容缓存,后期对相似问题进行检索问答时,您的搜索效率会相对高效。使用知识库缓存需要选择以下几个参数。

    • 缓存生成模型服务:选择一个模型服务。
    • 缓存阈值:达到缓存阈值,就会使用缓存,输入值必须在0.1到1之间。
    • 缓存策略:达到缓存阈值,如果有多个答案,可以设置最高分或者随机。
    • 过期策略配置:缓存过期的方式,有3种选择。
      • Least Recently Used:根据当前时间与最后一次访问时间的差值超过存活时间时删除。
      • First In First Out:根据当前时间与创建时间的差值超过存活时间时删除。
      • Least Frequency Used:小于缓存命中阈值且当前时间与创建时间大于存活时间时清除,大于阈值时保留
    • 存活时间(秒):可以自己设置缓存的存活时间,或者直接设置成永久。

    目录管理

    开启后将使用默认的目录管理功能管理知识库中的文档。

    注意:

    如果已对目录管理进行二次开发开启后会导致原目录管理数据被覆盖。

知识库创建好后,可以在知识库管理页面查看到新创建的知识库基本信息,包括知识库ID、知识库名称、知识库状态等信息。

修改知识库设置

针对已创建的知识库,支持修改知识库设置。

修改知识库“解析拆分设置”后,仅对重试及最新上传的文档生效。

  1. 在KooSearch控制台,左侧导航栏选择“知识库管理”

    进入知识库管理页面。

  2. 在知识库管理页面,选择已创建的知识库,单击操作列的“文档管理”

    进入文档管理页面。

  3. 单击右上角的“设置”,修改解析拆分设置和更多设置。
    • 解析拆分设置

      参考表2表3修改设置。

    • 召回策略

      召回策略分为文本召回策略和FAQ召回策略。

      表9 召回策略

      参数

      说明

      文本召回策略

      是指在文档中搜索时,生成结果的策略。包含语义检索、混合检索、关键词检索。

      • 语义检索:切片使用向量检索技术,FAQ使用querytoquery相似检索技术。
      • 混合检索:切片使用向量检索和关键词检索混合检索,FAQ使用querytoquery相似检索技术。
      • 关键词检索:切片使用倒排检索技术,FAQ使用querytoquery相似检索技术。

      语义检索topk召回数量:是指语义搜索生成的片段数量。语义检索topk未配置时,将使用默认值50。

      关键字topK召回数量:是指搜索生成的片段数量。

      FAQ检索召回个数:通过querytoquery相似检索得到相似得分,按照配置个数进行截断检索召回默认值2。

      精排:对搜索结果进行过滤和排序后呈现给。

      知识库精排开关默认为开启状态,若未配置,则为开启状态。注意:关闭精排时相关性得分范围为0-200,开启精排时相关性得分为0-1,在开启或关闭精排后需要重新设置相关性阈值和引用相关度阈值,否则会影响过滤效果!

      • 搜索页面相关性阈值:超过相关度阈值的搜索结果才能在搜索结果页展示,否则被过滤。
      • 问答相关度阈值:超过相关度阈值的搜索结果会提交给大模型进行总结,否则被过滤。

      FAQ召回策略

      是指在FAQ中搜索结果时,生成结果的策略。

      FAQ检索召回相似阈值:通过querytoquery相似检索得到相似得分,超过阈值可以检索召回,默认值0.8。

      FAQ问答直出阈值:超过阈值的FAQ会作为答案直接输出,不需要经过大模型总结。默认值0.95。

    • 更多设置

      修改“搜索模型设置”“NLP模型设置”“AI搜索设置”“高级设置”,如何修改请参考新建知识库中步骤5步骤6

      同时支持新增“其他”设置。

      表10 其他设置

      参数

      说明

      参考文档数量

      设置RAG大模型参考的文档数量。

      参考文档数量未配置时,将使用默认值3

      Query改写

      开启后,将根据用户历史多轮对话,对输入query进行问题拆分和改写,改写后的query仅用于文档检索。

      意图分类

      勾选意图分类。

      • 人设类:你叫什么名字?
      • 天气类:今天天气怎样?
      • 行业知识类: 对于行业知识类,建议使用前缀匹配,后续可能继续扩展。如:行业知识类-金融:贷款重组的定义是什么。
      • 行业知识类-制造:我国的制造业到了什么阶段?
      • 行业知识类-医疗:医疗事故有哪些?
      • 行业知识类-政务:《国务院关于印发新一代人工智能发展规划的通知》的指导思想是什么?
      • 行业知识类-金融:今天的股市怎么样?
      • 语言任务类:请创作一封约460字的邮件,主题是咨询一个新的IT项目的细节,这个邮件将被发送给公司的IT项目经理。
      • 通用知识类:豆汁和豆浆的区别。
      • 闲聊类:坐火车累死了。
      说明:

      未选择分类的先使用知识库检索再进行大模型总结,选中的分类直接使用大模型回答。

      拒答回复

      开启后,可以自己设置拒答回复语,当搜索的问题没有答案时,则会回复设置的回复语。

      通用自定义prompt

      • 使用场景:主要用于非RAG场景下的模型生成阶段。(非RAG场景:对话生成任务中,不使用检索步骤进行信息检索,直接使用生成模型生成回复。)
      • 组成要素:用户问题、任务指令以及其他要求。
      • 使用方式:支持自定义prompt,如果未配置自定义prompt,则使用默认prompt。在自定义构建时,请参考默认prompt的格式。

      QA问题生成自定义prompt

      你是问题抽取专家,请根据下面的文档文本内容,归纳生成最多{0}个高质量问题,要求: (1)生成的问题可以根据所提供的文档文本内容进行回答 (2)以知识库问答的口语化个人提问方式呈现 (3)生成问题不能特指该文档文本内容 (4)生成知识点丰富全面的多样性问题 (5)生成的问题不能过于简单,确保生成问题的质量文档文本内容:{1}

      注意:其中{0}和{1}表示占位符,且顺序固定,检索出来的文章内容将被填充至{0}所在位置,格式为 【文档名称】:{title1} 
      【文档内容】:{content1} 
      【文档名称】:{title2} 
      【文档内容】:{content2}
       ...... 
      检索的query将被填充至{1}所在位置后进行生成。

      QA答案生成自定义prompt

      你是问题抽取专家,请根据下面的文档文本内容,归纳生成最多{0}个高质量问题,要求: (1)生成的问题可以根据所提供的文档文本内容进行回答 (2)以知识库问答的口语化个人提问方式呈现 (3)生成问题不能特指该文档文本内容 (4)生成知识点丰富全面的多样性问题 (5)生成的问题不能过于简单,确保生成问题的质量文档文本内容:{1}

      注意:其中{0}和{1}表示占位符,且顺序固定,检索出来的文章内容将被填充至{0}所在位置,格式为 
      【文档名称】:{title} 
      【文档内容】:{content} 
      生成的问题将被填充至{1}所在位置后进行对应答案生成。
  4. 单击“确定”,完成知识库设置的修改。
  5. 修改完配置之后,已经导入的文件需要重新导入才能使知识库设置生效。