文档首页/ 应用平台 AppStage/ API参考/ API/ 知识中心/ 查询知识数据集列表(Token认证)
更新时间:2025-08-06 GMT+08:00
分享

查询知识数据集列表(Token认证)

功能介绍

该接口用于查询知识数据集列表。

调用方法

请参见如何调用API

URI

GET https://aiae.appstage.myhuaweicloud.com/v1/unidata/knowledge-base-datasets

表1 Query参数

参数

是否必选

参数类型

描述

category

String

参数解释:

数据集范围类型。

约束限制:

不涉及。

取值范围:

枚举值:

  • PRIVATE:用户创建数据集。

  • PUBLIC:平台预置数据集。

默认取值:

不涉及。

offset

Integer

参数解释:

偏移量。

约束限制:

不涉及。

取值范围:

正整数。

默认取值:

0。

limit

Integer

参数解释:

分页每页的条目数量。

约束限制:

不涉及。

取值范围:

1-100的整数。

默认取值:

10。

keyword

String

参数解释:

查询关键字。

约束限制:

支持中英文、数字、下划线(_),1-50个字符。

取值范围:

不涉及。

默认取值:

不涉及。

status

Array of strings

参数解释:

数据集状态。

约束限制:

不涉及。

取值范围:

枚举值:

  • CREATING:创建中。

  • DISABLE:状态异常。

  • WAITING_SCHEDULE:等待执行。

  • SCHEDULING:执行中。

  • NORMAL:正常。

  • SCHEDULE_FAILED:执行失败。

  • FREEZE冻结:CBC触发。

默认取值:

不涉及。

data_type

String

参数解释:

数据集类型。

约束限制:

不涉及。

取值范围:

枚举值:

  • TEXT:文档。

  • IMAGE_TO_TEXT:图片-摘要。

  • VIDEO_TO_TEXT:视频-摘要。

  • IMAGE:图片。

默认取值:

不涉及。

tags

Array of strings

参数解释:

标签列表。

约束限制:

支持中英文、数字、下划线(_),1-100个字符。

取值范围:

1-100

默认取值:

不涉及。

schedule_type

String

参数解释:

任务类型。

约束限制:

不涉及。

取值范围:

枚举值:

  • ONCE:一次性任务。

  • SCHEDULE:周期性任务。

默认取值:

不涉及。

schedule_status

String

参数解释:

任务状态。

约束限制:

不涉及。

取值范围:

枚举值:

  • ACTIVE:生效中。

  • PAUSE:暂停中。

默认取值:

不涉及。

请求参数

表2 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

参数解释:

用户Token。通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

响应参数

状态码:200

表3 响应Body参数

参数

参数类型

描述

data

PageInfoKnowledgeDataSetDetail object

知识数据集详情列表。

表4 PageInfoKnowledgeDataSetDetail

参数

参数类型

描述

total

Long

参数解释:

知识库总数。

取值范围:

不涉及。

list

Array of KnowledgeDataSet objects

参数解释:

知识数据集列表。

取值范围:

不涉及。

pageNum

Integer

参数解释:

当前页。

取值范围:

不涉及。

pageSize

Integer

参数解释:

每页的数量。

取值范围:

不涉及。

size

Integer

参数解释:

当前页的数量。

取值范围:

不涉及。

startRow

Long

参数解释:

当前页面第一个元素在数据库中的行号。

取值范围:

不涉及。

endRow

Long

参数解释:

当前页面最后一个元素在数据库中的行号。

取值范围:

不涉及。

pages

Integer

参数解释:

总页数。

取值范围:

不涉及。

prePage

Integer

参数解释:

前一页。

取值范围:

不涉及。

nextPage

Integer

参数解释:

后一页。

取值范围:

不涉及。

isFirstPage

Boolean

参数解释:

是否为第一页。

取值范围:

不涉及。

isLastPage

Boolean

参数解释:

是否为最后一页。

取值范围:

不涉及。

hasPreviousPage

Boolean

参数解释:

是否有前一页。

取值范围:

不涉及。

hasNextPage

Boolean

参数解释:

是否有下一页。

取值范围:

不涉及。

navigatePages

Integer

参数解释:

导航页总数。

取值范围:

不涉及。

navigatepageNums

Array of integers

参数解释:

所有导航页号。

取值范围:

不涉及。

navigateFirstPage

Integer

参数解释:

导航页上一页。

取值范围:

不涉及。

navigateLastPage

Integer

参数解释:

导航页下一页。

取值范围:

不涉及。

表5 KnowledgeDataSet

参数

参数类型

描述

last_updated_date

String

参数解释:

最近更新时间。

取值范围:

格式为:yyyy-mm-dd hh:mm:ss,如2024-11-21 11:36:55。

last_updated_by_user_id

String

参数解释:

最近一次更新人ID。

取值范围:

不涉及。

last_updated_by_user_name

String

参数解释:

最近一次更新人名称。

取值范围:

不涉及。

last_updated_by_nick_name

String

参数解释:

最新一次更新人昵称。

取值范围:

不涉及。

tenant_id

String

参数解释:

租户ID。

取值范围:

不涉及。

tenant_name

String

参数解释:

租户名称。

取值范围:

不涉及。

dept_code

String

参数解释:

部门编码。

取值范围:

不涉及。

created_date

String

参数解释:

创建日期。

取值范围:

不涉及。

created_by_user_id

String

参数解释:

创建人ID。

取值范围:

不涉及。

created_by_user_name

String

参数解释:

创建人名称。

取值范围:

不涉及。

created_by_nick_name

String

参数解释:

创建人昵称。

取值范围:

不涉及。

deleted

Boolean

参数解释:

是否删除。

取值范围:

不涉及。

id

String

参数解释:

知识库ID。

取值范围:

不涉及。

name

String

参数解释:

知识库名称。

取值范围:

不涉及。

description

String

参数解释:

知识库描述。

取值范围:

不涉及。

tags

Array of strings

参数解释:

标签列表。

取值范围:

不涉及。

scope

String

参数解释:

知识数据集范围。

取值范围:

枚举值:

  • PRIVATE:用户创建数据集。

  • PUBLIC:平台预置数据集。

data_type

String

参数解释:

数据集类型。

取值范围:

枚举值:

  • TEXT:文档。

  • IMAGE_TO_TEXT:图片-摘要。

  • VIDEO_TO_TEXT:视频-摘要。

  • IMAGE:图片。

preprocess_config

PreprocessConfig object

参数解释:

数据集预处理配置。

约束限制:

data_type为IMAGE时不传。

取值范围:

不涉及。

ingestion_config

IngestionConfig object

参数解释:

数据集数据接入配置。

取值范围:

不涉及。

chunk_config

ChunkConfig object

参数解释:

数据集切分配置。

取值范围:

data_type不为TEXT不传。

schedule_config

ScheduleConfig object

参数解释:

调度配置。

取值范围:

不涉及。

extraction_config

ExtractionConfig object

参数解释:

切片提取配置。

取值范围:

不涉及。

schedule_status

String

参数解释:

调度状态。

取值范围:

不涉及

status

String

参数解释:

数据集状态。

取值范围:

  • CREATING:创建中。

  • DISABLE:状态异常。

  • WAITING_SCHEDULE:等待执行。

  • SCHEDULING:执行中。

  • NORMAL:正常。

  • SCHEDULE_FAILED:执行失败。

  • FREEZE冻结:CBC触发。

表6 PreprocessConfig

参数

参数类型

描述

cleaning_methods

Array of strings

参数解释:

数据集清洗方法。

约束限制:

不涉及。

取值范围:

枚举值:

  • URL_AND_EMAIL:删除所有的URL和电子邮件地址。

  • CONTINUOUS_SYMBOL:清除连续的空格,换行符和制表符。

  • INVISIBLE:清除不可见字符。

  • WHITESPACE:规范化空格。

  • GARBLE:清除乱码。

  • WEB_SYMBOL:清除网页标识符。

  • EMOJI:清除表情。

默认取值:

不涉及。

pdf_preprocess_type

String

参数解释:

数据集pdf文件预处理类型。

约束限制:

仅data_type为TEXT时支持传入。

取值范围:

枚举值:

  • EXTRACT_RICH_MEDIA:提取富媒体,如表、图。

  • NO_PREPROCESS:不做处理。

默认取值:

不涉及。

rich_media_intelligent_match

String

参数解释:

数据集pdf预处理后,富媒体提取类型。

约束限制:

仅data_type为TEXT时支持传入。

取值范围:

枚举值:

  • SMART_MATCH_IMAGE_TABLE:智能提取,仅预处理为EXTRACT_RICH_MEDIA支持。

  • NO_MATCH:不提取。

默认取值:

不涉及。

表7 IngestionConfig

参数

参数类型

描述

data_source

String

参数解释:

数据来源。

约束限制:

不涉及。

取值范围:

枚举值:

  • FILE_UPLOAD:文件上传。

  • OBS_INGESTION:OBS接入。

默认取值:

不涉及。

obs_ingestion

ObsIngestion object

参数解释:

OBS接入配置。

取值范围:

不涉及

file_types

Array of strings

参数解释:

数据集支持的文件类型。

约束限制:

不涉及。

取值范围:

PDF、TXT、CSV、XLSX、DOCX、PPTX、HTML、JSON、XML、JPG、JPEG、PNG、MP4、WEBM。

默认取值:

不涉及。

summary_configs

Array of SummaryConfig objects

参数解释:

摘要类型数据集摘要配置。

约束限制:

在data_type为IMAGE_TO_TXT或VIDEO_TO_TEXT时需传入,其它类型则不传。

取值范围:

不涉及。

默认取值:

不涉及。

表8 ObsIngestion

参数

参数类型

描述

obs_bucket_name

String

参数解释:

OBS桶名。

约束限制:

不涉及。

取值范围:

长度[3, 63]。

默认取值:

不涉及。

obs_input_directory

String

参数解释:

OBS接入目录路径。

约束限制:

不涉及。

取值范围:

OBS接入路径与目录下文件名组合成的路径,最长不超过200。

默认取值:

不涉及。

表9 SummaryConfig

参数

参数类型

描述

file_name

String

参数解释:

文件名。

约束限制:

需与上传文件名称一致。

取值范围:

不涉及。

默认取值:

不涉及。

summary

String

参数解释:

摘要。

约束限制:

不涉及。

取值范围:

长度[1, 600]。

默认取值:

不涉及。

表10 ChunkConfig

参数

参数类型

描述

slicing_configs

Map<String,SlicingConfig>

参数解释:

数据集切分配置列表。

约束限制:

切分配置数量需要与文件类型数量保持一致。

取值范围:

范围[1, 30]。

默认取值:

不涉及。

表11 SlicingConfig

参数

参数类型

描述

slicing_method

String

参数解释:

数据集切分方法。

约束限制:

不涉及。

取值范围:

枚举值:

  • AUTO_SLICING:自动切分。

  • TITLE:标题切分。

  • SENTENCE:自定义切分。

  • JSON:JSON切分。

  • XML:XML切分。

除自动切分外,其它类型切分需传入对应切分配置。

默认取值:

不涉及。

sentence_slicing_config

SentenceSlicingConfig object

参数解释:

自定义切分配置。

取值范围:

不涉及。

title_slicing_config

TitleSlicingConfig object

参数解释:

标题切分配置。

取值范围:

不涉及。

json_slicing_config

JsonSlicingConfig object

参数解释:

JSON切分配置。

取值范围:

不涉及。

xml_slicing_config

XmlSlicingConfig object

参数解释:

XML切分配置。

取值范围:

不涉及。

表12 SentenceSlicingConfig

参数

参数类型

描述

slicing_strategy

String

参数解释:

文本切分策略。

约束限制:

不涉及。

取值范围:

枚举值:

  • RECURSIVE:递归切分。

  • EQUIVALENT:等价切分。

默认取值:

不涉及。

spec_symbols

Array of strings

参数解释:

分段分隔符。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

默认取值:

不涉及。

chunk_size

Integer

参数解释:

分段长度。

约束限制:

不涉及。

取值范围:

取值[1, 500]。

默认取值:

不涉及。

chunk_overlap

Integer

参数解释:

分段重叠长度。

约束限制:

不涉及。

取值范围:

取值[0, 50]。

默认取值:

不涉及。

contain_separator

Boolean

参数解释:

切片是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表13 TitleSlicingConfig

参数

参数类型

描述

slicing_strategy

String

参数解释:

文本切分策略。

约束限制:

不涉及。

取值范围:

枚举值:

  • RECURSIVE:递归切分。

  • EQUIVALENT:等价切分。

默认取值:

不涉及。

title_level

String

参数解释:

标题层级深度。

约束限制:

不涉及。

取值范围:

H1、H2、H3、H4、H5。

默认取值:

不涉及。

title_saved_method

String

参数解释:

标题保存方式。

约束限制:

不涉及。

取值范围:

枚举值:

  • COMBINATION:多标题组合。

  • LAST:最后一级标题。

默认取值:

不涉及。

spec_symbols

Array of strings

参数解释:

分段分隔符。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

默认取值:

不涉及。

chunk_size

Integer

参数解释:

分段长度。

约束限制:

不涉及。

取值范围:

取值[1,500]。

默认取值:

不涉及。

chunk_overlap

Integer

参数解释:

分段重叠长度。

约束限制:

不涉及。

取值范围:

取值[0,50]。

默认取值:

不涉及。

contain_separator

Boolean

参数解释:

切片是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表14 JsonSlicingConfig

参数

参数类型

描述

levels_back

Integer

参数解释:

输出层级。

约束限制:

不涉及。

取值范围:

取值[0,20]。

默认取值:

不涉及。

collapse_length

Integer

参数解释:

递归最小长度。

约束限制:

不涉及。

取值范围:

取值[0,1000]。

默认取值:

不涉及。

表15 XmlSlicingConfig

参数

参数类型

描述

tree_level_split

Integer

参数解释:

遍历层级。

约束限制:

不涉及。

取值范围:

取值[0,20]。

默认取值:

不涉及。

表16 ScheduleConfig

参数

参数类型

描述

schedule_type

String

参数解释:

调度类型。

约束限制:

data_source为FILE_UPLOAD时仅支持ONCE。

取值范围:

枚举值:

  • ONCE:一次性调度。

  • SCHEDULE:周期性调度。

默认取值:

不涉及。

scheduled_task_config

ScheduledTaskConfig object

参数解释:

调度任务配置。

取值范围:

不涉及。

表17 ScheduledTaskConfig

参数

参数类型

描述

cycle_type

String

参数解释:

定时任务周期类型。

约束限制:

不涉及。

取值范围:

枚举值:

  • DAY:按日更新。

  • WEEK:按周更新。

默认取值:

不涉及。

run_time

String

参数解释:

定时任务执行时间。

约束限制:

不涉及。

取值范围:

格式为:HH:mm:ss,如18:30:00。

默认取值:

不涉及。

week_day

String

参数解释:

定时任务的星期。

约束限制:

不涉及。

取值范围:

枚举值:

  • SUNDAY:星期天。

  • MONDAY:星期一。

  • TUESDAY:星期二。

  • WEDNESDAY:星期三。

  • THURSDAY:星期四。

  • FRIDAY:星期五。

  • SATURDAY:星期六。

默认取值:

不涉及。

execute_immediately

Boolean

参数解释:

定时任务是否立即执行一次。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

version_refresh_mode

String

参数解释:

版本刷新模式。

约束限制:

不涉及。

取值范围:

枚举值:

  • ONE_VERSION:每次执行覆盖原版本。

  • MULTI_VERSION:每次执行生成新版本。

默认取值:

不涉及。

表18 ExtractionConfig

参数

参数类型

描述

extraction_example

String

参数解释:

切片提取样例。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

extraction_mode

String

参数解释:

切片提取模式。

约束限制:

不涉及。

取值范围:

枚举:

  • RULE_EXTRACTION:规则提取。

  • SMART_EXTRACTION:智能提取。

默认取值:

不涉及。

rule_extraction_configs

Array of RuleExtractionConfig objects

参数解释:

规则提取配置列表。

约束限制:

extraction_mode为RULE_EXTRACTION需传入,为SMART_EXTRACTION不传。

取值范围:

规则提取配置数量不超过10个,提取字段名称长度[1,20],不允许重复。

默认取值:

不涉及。

表19 RuleExtractionConfig

参数

参数类型

描述

field_name

String

参数解释:

提取字段名称。

约束限制:

不涉及。

取值范围:

字段数量不超过10个,其中名称长度[1,20],不允许重复,仅可包含字母数字下划线,并且以字母开头;

不允许为以下名称(大小写不敏感)【"file_name", "file_id", "path", "order", "document", "base64","chunk",不能以ki_、ko_开头】。

默认取值:

不涉及。

extraction_rule

String

参数解释:

提取规则。

约束限制:

不涉及。

取值范围:

枚举值:

  • SEPARATOR:分隔符提取。

  • TEMPLATE:模板提取。

默认取值:

不涉及。

separator_extraction

SeparatorExtractionConfig object

参数解释:

分隔符提取配置。

取值范围:

不涉及。

template_extraction

HeadAndTailExtractionTemplate object

参数解释:

模板提取配置。

取值范围:

不涉及。

表20 SeparatorExtractionConfig

参数

参数类型

描述

separator

String

参数解释:

分隔符。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

默认取值:

不涉及。

extraction_code

Integer

参数解释:

提取分段序号。

约束限制:

不涉及。

取值范围:

范围[1,100],提取序号大于可提取分段数量时字段内容为空串。

默认取值:

不涉及。

contain_separator

Boolean

参数解释:

提取分段是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表21 HeadAndTailExtractionTemplate

参数

参数类型

描述

start_with

String

参数解释:

提取分段开头。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

默认取值:

不涉及。

contain_start

Boolean

参数解释:

提取分段是否包含开头。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

end_with

String

参数解释:

提取分段结尾。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^?+ 且不允许为<!I@M#A%G&E!>、<!T@A#B%L&E!>。

默认取值:

不涉及。

contain_end

Boolean

参数解释:

提取分段是否包含结尾。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

extraction_code

Integer

参数解释:

提取分段序号。

约束限制:

不涉及。

取值范围:

范围[1,100],提取序号大于可提取分段数量时字段内容为空串。

默认取值:

不涉及。

状态码:400

表22 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

异常错误码。

取值范围:

不涉及。

error_msg

String

参数解释:

异常错误信息。

取值范围:

不涉及。

请求示例

响应示例

状态码:200

查询知识数据集成功响应参数。

{
  "data" : {
    "total" : 1,
    "list" : [ {
      "last_updated_date" : "2025-07-21T01:22:00.000+00:00",
      "last_updated_by_user_id" : "f0e1c67f3ee445cb938fb86bfbdf2255",
      "last_updated_by_user_name" : "developer",
      "last_updated_by_nick_name" : "developer",
      "tenant_id" : "1015192394",
      "tenant_name" : "developer",
      "dept_code" : "1015192394",
      "created_date" : "2025-07-21T01:22:00.000+00:00",
      "created_by_user_id" : "f0e1c67f3ee445cb938fb86bfbdf2255",
      "created_by_user_name" : "developer",
      "created_by_nick_name" : "developer",
      "deleted" : false,
      "id" : "83be02f0-0b99-419b-81e4-83a9c0676a0c",
      "name" : "测试0716_003",
      "description" : "测试",
      "tags" : [ ],
      "scope" : "PRIVATE",
      "data_type" : "TEXT",
      "company_id" : null,
      "preprocess_config" : {
        "cleaning_methods" : [ "normalizeWhitespace" ],
        "pdf_preprocess_type" : "NO_PREPROCESS",
        "rich_media_intelligent_match" : "NO_MATCH"
      },
      "ingestion_config" : {
        "data_source" : "FILE_UPLOAD",
        "obs_ingestion" : null,
        "file_types" : [ "txt" ],
        "summary_configs" : null
      },
      "chunk_config" : {
        "slicing_configs" : {
          "txt" : {
            "slicing_method" : "autoSlicing"
          }
        }
      },
      "schedule_config" : {
        "schedule_type" : "ONCE",
        "scheduled_task_config" : {
          "cycle_type" : null,
          "run_time" : null,
          "week_day" : null,
          "execute_immediately" : null,
          "version_refresh_mode" : null
        }
      },
      "extraction_config" : null,
      "schedule_status" : null,
      "status" : "NORMAL",
      "on_shelf_status" : "OFF_SHELF",
      "source_asset_id" : null
    } ],
    "pageNum" : 0,
    "pageSize" : 0,
    "size" : 3,
    "startRow" : 1,
    "endRow" : 3,
    "pages" : 0,
    "prePage" : 0,
    "nextPage" : 0,
    "isFirstPage" : false,
    "isLastPage" : false,
    "hasPreviousPage" : false,
    "hasNextPage" : false,
    "navigatePages" : 0,
    "navigatepageNums" : null,
    "navigateFirstPage" : 0,
    "navigateLastPage" : 0
  }
}

状态码

状态码

描述

200

查询知识数据集成功响应参数。

400

请求错误。

错误码

请参见错误码

相关文档