知识库分段
知识库分段介绍
知识库进行分段设置主要是为了提高信息的组织性、可读性和检索效率。具体来说,分段设置的优势包括:
- 提高可读性:将长篇内容分成多个段落,每个段落集中讨论一个主题或一个方面,可以使读者更容易理解和消化信息。长篇大论往往会让读者感到疲惫,而分段则可以提供自然的停顿点,帮助读者更好地吸收信息。
- 增强组织性:通过分段,可以将相关的信息归类在一起,使知识库的内容结构更加清晰。这种结构化的组织方式不仅有助于作者在编写时保持逻辑清晰,也方便读者快速找到他们感兴趣的内容。
- 提高检索效率:对于大型知识库而言,分段设置可以与索引、标签等机制结合使用,帮助用户更快地定位到特定的信息。例如,搜索引擎可以更容易地识别出每个段落的关键内容,从而提高搜索结果的相关性和准确性。
- 便于维护和更新:分段的知识库内容更容易进行维护和更新。当需要修改或添加信息时,可以针对特定的段落进行操作,而不会影响到其他部分的内容,这有助于保持知识库的准确性和时效性。
- 适应不同的阅读习惯:不同的人有不同的阅读习惯和偏好。分段设置可以满足不同用户的需求,比如一些用户可能喜欢快速浏览标题和段落首句来获取概览,而另一些用户则可能更倾向于深入阅读每个段落的详细内容。
分段策略
|
分段类型 |
自动分段 |
长度分段 |
层级分段 |
|---|---|---|---|
|
分段原则 |
AgentArts可对上传的内容进行自动分段,支持复杂布局的文件处理,例如:
|
根据用户需求,灵活配置分段标识符、分段最大长度、分段重叠度等参数,同时还能通过设置文本预处理规则,在分段前对文本进行特定处理。 |
根据文档的目录结构、章节划分等层级信息,将内容划分为不同层级的文本单元。 |
|
分段优点 |
系统预设,无需额外配置,提高使用效率。 |
严格控制分段长度,节约大模型会话时的Tokens。 |
结构清晰,便于用户理解,提高检索效率。 |
|
分段缺点 |
自动分段的效果依赖文档质量。 |
配置复杂,不适于所有文档,需要用户对文档内容和参数规则有较深的理解。 |
需要文档具有明确的层级结构,对于结构不规范的文档难以适用。 |
|
分段效果 |
|
|
|
|
适用场景 |
适用于大部分分段场景,通常文档结构较为规范,是使用情况最多的分段类型。 |
适用于对分段长度有严格要求的场景。 |
适用于结构层次分明的知识体系,例如技术手册、法律条文、标准规范等。这些文档通常具有明确的结构层次,需要按照章节、小节等进行组织和检索。 |
分段策略配置
- 自动分段:系统默认自动分段。选择该策略时会自动利用句号、分号、问号、感叹号等标点符号作为分段依据,将文档分割成一个个独立的句子或段落,无其他配置项。
- 长度分段:选择该分段策略,完成以下配置。
- 层级分段:选择该分段策略,完成以下配置。
- 层级解析模型:
- 自动解析:自动识别和解析具有层级结构的数据或信息。
- 规则解析:支持添加自定义层级规则。
- 标题层级深度:指设置的切分标题级别,例如,文本包含最多5级标题,选择的标题层级深度为3,则会分别将所有3级标题下的内容合并成文本块,文本块作为一个整体执行后续切分操作。输入值必须在1到10之间。
- 标题保存方式:指标题信息在切片中的保存形式,影响检索结果的展示逻辑和索引构建方式。
- 保存多标题组合:多级标题用特定符号组合:1级标题-2级标题-3级标题-…-文本
- 保存最后一级标题:仅组合最后一级标题:最后一级标题-文本
- 跨标题合并:根据需求开启或者关闭。
- 开启“跨标题合并”功能:当不同标题下的段落文字较少时,平台会自动将其合并到指定的分段长度,有助于生成更加全面的内容。
- 关闭“跨标题合并”开关:不会自动合并不同标题下的内容。
- 分段标识符:分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。支持中文句号、英文句号、中文感叹号、英文感叹号、中文问号、英文问号、空格、中文逗号、英文逗号。
- 分段预计长度:分段的最大长度。文档的正文如果大于设定的最大长度,则截取最大长度的片段为新文档,随后回溯分段重叠字符,继续向后检查,直到文档结束
- 层级解析模型:


