更新时间:2025-03-12 GMT+08:00
分享

创建知识数据集

功能介绍

该接口用于创建知识数据集,可将原始文档按照一定规则进行处理,用于后续生成知识库。

调用方法

请参见如何调用API

URI

POST https://aiae.appstage.myhuaweicloud.com/v1/knowledge-datasets

表1 Query参数

参数

是否必选

参数类型

描述

data_set

String

参数解释:

创建知识数据集请求体,参数结构请参见“附录 > 知识数据集请求参数说明”。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

file

Array of strings

参数解释:

上传的文件。

取值范围:

数量不超过10个。

默认取值:

不涉及。

约束限制:

  • 文档:支持.pdf、.txt(只支持UTF-8)、.csv(只支持UTF-8)、.xlsx、.docx、.pptx、.html、.json、.xml、.md格式,单个文件最大为10M,总上传大小最大为500M。

  • 图片:支持.png、.jpg、.jpeg、.gif、.webp、.bmp格式,单张图片最大为10M,总上传大小最大为200M。

  • 图片-摘要:支持本地文件上传.png、.jpg、.jpeg、.gif、.webp、.bmp格式,需对图片填写摘要信息,单张图片最大为10M,总上传大小最大为300M。

  • 视频-摘要:支持本地文件上传mp4、webm、wov、.avi格式,需对视频填写摘要信息,单个视频最大为100M,总上传大小最大为300M。

请求参数

表2 请求Header参数

参数

是否必选

参数类型

描述

Authorization

String

参数解释:

鉴权信息。获取平台API Key,并为API Key添加前缀Bearer,得到标准鉴权信息,例如Bearer sk-74e4157***。API Key获取方法请参见创建API Key

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

响应参数

状态码:200

表3 响应Body参数

参数

参数类型

描述

data

String

参数解释:

正常返回的结果。

取值范围:

不涉及。

状态码:400

表4 响应Body参数

参数

参数类型

描述

error_code

String

参数解释:

异常错误码。

取值范围:

不涉及。

error_msg

String

参数解释:

异常错误信息。

取值范围:

不涉及。

请求示例

{
  "name" : "测试",
  "description" : "测试",
  "data_type" : "TEXT",
  "tags" : [ "对话问答", "文案生成" ],
  "ingestion_config" : {
    "data_source" : "FILE_UPLOAD",
    "file_types" : [ "txt" ]
  },
  "schedule_config" : {
    "schedule_type" : "ONCE"
  },
  "preprocess_config" : {
    "cleaning_methods" : [ "invisible" ],
    "pdf_preprocess_type" : "NO_PREPROCESS"
  },
  "chunk_config" : {
    "slicing_configs" : {
      "txt" : {
        "slicing_method" : "autoSlicing"
      }
    }
  },
  "extraction_config" : {
    "extraction_example" : "今天天气如何?答:还不错哦。",
    "extraction_mode" : "RULE_EXTRACTION",
    "rule_extraction_configs" : [ {
      "extraction_rule" : "SEPARATOR",
      "field_name" : "question",
      "separator_extraction" : {
        "contain_separator" : false,
        "extraction_code" : 1,
        "separator" : "?"
      }
    }, {
      "extraction_rule" : "TEMPLATE",
      "field_name" : "answer",
      "template_extraction" : {
        "contain_end" : true,
        "contain_start" : false,
        "end_with" : "。",
        "extraction_code" : 1,
        "start_with" : "答"
      }
    } ]
  },
  "index_config" : {
    "description" : "索引配置",
    "long_text_solution" : "TRUNCATE_MODE",
    "name" : "索引配置",
    "rag_type" : "VECTOR_RAG",
    "retrieval_configs" : [ {
      "category" : "FULL_CHUNK",
      "name" : "chunk",
      "retrieval_return" : false,
      "text_filter" : false,
      "vector_retrieval" : false
    }, {
      "category" : "CHUNK_FRAGMENT",
      "name" : "question",
      "retrieval_return" : true,
      "text_filter" : true,
      "vector_retrieval" : true
    }, {
      "category" : "CHUNK_FRAGMENT",
      "name" : "answer",
      "retrieval_return" : true,
      "text_filter" : true,
      "vector_retrieval" : false
    } ],
    "vector_model_service_key" : "GPT-4"
  }
}

响应示例

状态码:200

操作成功,返回数据集id。

{
  "data" : "3f28e62-xxxxxxxx-a15be0d638a2"
}

状态码:400

请求错误。

{
  "error_code" : "AIAE.40001001",
  "error_msg" : "参数xxxx不合法。"
}

状态码

状态码

描述

200

操作成功,返回数据集id。

400

请求错误。

错误码

请参见错误码

相关文档

    提示

    您即将访问非华为云网站,请注意账号财产安全