更新时间:2026-03-09 GMT+08:00
分享

知识库分段

知识库分段介绍

知识库进行分段设置主要是为了提高信息的组织性、可读性和检索效率。具体来说,分段设置的优势包括:

  • 提高可读性:将长篇内容分成多个段落,每个段落集中讨论一个主题或一个方面,可以使读者更容易理解和消化信息。长篇大论往往会让读者感到疲惫,而分段则可以提供自然的停顿点,帮助读者更好地吸收信息。
  • 增强组织性:通过分段,可以将相关的信息归类在一起,使知识库的内容结构更加清晰。这种结构化的组织方式不仅有助于作者在编写时保持逻辑清晰,也方便读者快速找到他们感兴趣的内容。
  • 提高检索效率:对于大型知识库而言,分段设置可以与索引、标签等机制结合使用,帮助用户更快地定位到特定的信息。例如,搜索引擎可以更容易地识别出每个段落的关键内容,从而提高搜索结果的相关性和准确性。
  • 便于维护和更新:分段的知识库内容更容易进行维护和更新。当需要修改或添加信息时,可以针对特定的段落进行操作,而不会影响到其他部分的内容,这有助于保持知识库的准确性和时效性。
  • 适应不同的阅读习惯:不同的人有不同的阅读习惯和偏好。分段设置可以满足不同用户的需求,比如一些用户可能喜欢快速浏览标题和段落首句来获取概览,而另一些用户则可能更倾向于深入阅读每个段落的详细内容。

分段策略

表1 分段策略

分段类型

自动分段

长度分段

层级分段

分段原则

AgentArts可对上传的内容进行自动分段,支持复杂布局的文件处理,例如:

  • 可识别段落。
  • 可识别页眉/页脚/脚注等非重点内容。
  • 支持跨页的段落合并
  • 支持解析表格中的图片信息。
  • 支持解析文档中的表格内容(目前,仅支持解析带线框的表格内容)。

根据用户需求,灵活配置分段标识符、分段最大长度、分段重叠度等参数,同时还能通过设置文本预处理规则,在分段前对文本进行特定处理。

根据文档的目录结构、章节划分等层级信息,将内容划分为不同层级的文本单元。

分段优点

系统预设,无需额外配置,提高使用效率。

严格控制分段长度,节约大模型会话时的Tokens。

结构清晰,便于用户理解,提高检索效率。

分段缺点

自动分段的效果依赖文档质量。

配置复杂,不适于所有文档,需要用户对文档内容和参数规则有较深的理解。

需要文档具有明确的层级结构,对于结构不规范的文档难以适用。

分段效果

适用场景

适用于大部分分段场景,通常文档结构较为规范,是使用情况最多的分段类型。

适用于对分段长度有严格要求的场景。

适用于结构层次分明的知识体系,例如技术手册、法律条文、标准规范等。这些文档通常具有明确的结构层次,需要按照章节、小节等进行组织和检索。

分段策略配置

  • 自动分段:系统默认自动分段。选择该策略时会自动利用句号、分号、问号、感叹号等标点符号作为分段依据,将文档分割成一个个独立的句子或段落,无其他配置项。
  • 长度分段:选择该分段策略,完成以下配置。
    • 分段标识符:分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。

      支持中文句号、英文句号、中文感叹号、英文感叹号、中文问号、英文问号、空格、中文逗号、英文逗号。

    • 分段预计长度:分段的最大长度。文档的正文如果大于设定的最大长度,则截取最大长度的片段为新文档,随后回溯分段重叠字符,继续向后检查,直到文档结束。取值范围为1~6000,默认值为500。
  • 层级分段:选择该分段策略,完成以下配置。
    • 层级解析模型:
      • 自动解析:自动识别和解析具有层级结构的数据或信息。
      • 规则解析:支持添加自定义层级规则。
    • 标题层级深度:指设置的切分标题级别,例如,文本包含最多5级标题,选择的标题层级深度为3,则会分别将所有3级标题下的内容合并成文本块,文本块作为一个整体执行后续切分操作。输入值必须在1到10之间。
    • 标题保存方式:指标题信息在切片中的保存形式,影响检索结果的展示逻辑和索引构建方式。
      • 保存多标题组合:多级标题用特定符号组合:1级标题-2级标题-3级标题-…-文本
      • 保存最后一级标题:仅组合最后一级标题:最后一级标题-文本
    • 跨标题合并:根据需求开启或者关闭。
      • 开启“跨标题合并”功能:当不同标题下的段落文字较少时,平台会自动将其合并到指定的分段长度,有助于生成更加全面的内容。
      • 关闭“跨标题合并”开关:不会自动合并不同标题下的内容。
    • 分段标识符:分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。支持中文句号、英文句号、中文感叹号、英文感叹号、中文问号、英文问号、空格、中文逗号、英文逗号。
    • 分段预计长度:分段的最大长度。文档的正文如果大于设定的最大长度,则截取最大长度的片段为新文档,随后回溯分段重叠字符,继续向后检查,直到文档结束

      取值范围为1~6000,默认值为500。

相关文档