Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2022-11-14 GMT+08:00

Creación de un conjunto de datos

Función

Esta API se utiliza para crear un conjunto de datos.

URI

POST /v2/{project_id}/datasets

Tabla 1 Parámetros de ruta

Parámetro

Obligatorio

Tipo

Descripción

project_id

String

ID del proyecto. Para obtener más información sobre cómo obtener el ID de proyecto, consulte Obtención de un ID de proyecto.

Parámetros de solicitud

Tabla 2 Parámetros de body de solicitud

Parámetro

Obligatorio

Tipo

Descripción

data_format

No

String

Formato de datos. Opciones:

  • Default: formato predeterminado
  • CarbonData (soportado solo por conjuntos de datos de tablas)

data_sources

Array of DataSource objects

Ruta de entrada del conjunto de datos, que se utiliza para sincronizar los datos de origen (como imágenes, archivos de texto y archivos de audio) en el directorio y sus subdirectorios con el conjunto de datos. Para un conjunto de datos de tabla, este parámetro indica el directorio de importación. El directorio de trabajo de un conjunto de datos de tabla no puede ser una ruta OBS en un bucket cifrado en KMS. Sólo se puede importar un origen de datos a la vez.

dataset_name

String

Nombre del conjunto de datos. El valor contiene de 1 a 100 caracteres. Solo se permiten letras, dígitos, guiones bajos (_), y guiones (-) por ejemplo, conjunto de datos-9f3b.

dataset_type

No

Integer

Tipo de conjunto de datos. Opciones:

  • 0: clasificación de imágenes
  • 1: detección de objetos
  • 3: segmentación de la imagen
  • 100: Clasificación del texto
  • 101: reconocimiento de entidad nombrada
  • 102: triplicación de texto
  • 200: clasificación de sonido
  • 201: Etiquetado de voz
  • 202: Etiquetado de párrafo de discurso
  • 400: tabla de conjunto de datos
  • 600: etiquetado de vídeo
  • 900: formato libre

description

No

String

Descripción del conjunto de datos. El valor está vacío por defecto. La descripción contiene de 0 a 256 caracteres y no admite los siguientes caracteres especiales: ^!<>=&"'

import_annotations

No

Boolean

Si desea importar automáticamente la información de etiquetado en el directorio de entrada, admitiendo la detección, la clasificación de imágenes y la clasificación de texto. Opciones:

  • true: Importar información de etiquetado en el directorio de entrada. (Valor predeterminado)
  • false: no importa información de etiquetado en el directorio de entrada.

import_data

No

Boolean

Si se van a importar datos. Este parámetro se utiliza únicamente para conjuntos de datos de tablas. Opciones:

  • true: Importar datos al crear una base de datos.
  • false: no importa datos al crear una base de datos. (Valor predeterminado)

label_format

No

LabelFormat object

Información sobre el formato de la etiqueta. Este parámetro se utiliza únicamente para conjuntos de datos de texto.

labels

No

Array of Label objects

Lista de etiqueta de conjunto de datos.

managed

No

Boolean

Si desea alojar un conjunto de datos. Opciones:

  • true: Aloja un conjunto de datos.
  • false: no aloja un conjunto de datos.(Default value)

schema

No

Array of Field objects

Lista de esquemas.

work_path

String

Ruta del conjunto de datos de salida, que se utiliza para almacenar archivos de salida, como archivos de etiquetas.

  • El formato es /Bucket name/File path, for example, /obs-bucket/flower/rose/. (El directorio se utiliza como ruta de acceso.)
  • Un bucket no se puede utilizar directamente como ruta de acceso.
  • La ruta del conjunto de datos de salida es diferente de la ruta del conjunto de datos de entrada o de su subdirectorio.
  • El valor contiene de 3 a 700 caracteres.

work_path_type

Yes

Integer

Tipo de la ruta de salida del conjunto de datos. Opciones:

  • 0: bucket OBS (valor predeterminado)

workforce_information

No

WorkforceInformation object

Información de etiquetado del equipo.

workspace_id

No

String

ID del espacio de trabajo. Si no se crea ningún espacio de trabajo, el valor predeterminado es 0. Si se crea y utiliza un espacio de trabajo, utilice el valor real.

Tabla 3 DataSource

Parámetro

Obligatorio

Tipo

Descripción

data_path

No

String

Ruta de origen de datos.

data_type

No

Integer

Tipo de datos. Opciones:

  • 0: bucket OBS (valor predeterminado)
  • 1: GaussDB(DWS)
  • 2: DLI
  • 3: RDS
  • 4: MRS
  • 5: AI Gallery
  • 6: Servicio de inferencia

schema_maps

No

Array of SchemaMap objects

Información de asignación de esquemas correspondiente a los datos de la tabla.

source_info

No

SourceInfo object

Información necesaria para importar un origen de datos de tabla.

with_column_header

No

Boolean

Si la primera fila del archivo es un nombre de columna. Este campo es válido para el conjunto de datos de la tabla. Opciones:

  • true: La primera fila del archivo es el nombre de la columna.
  • false: La primera fila del archivo no es el nombre de la columna.
Tabla 4 SchemaMap

Parámetro

Obligatorio

Tipo

Descripción

dest_name

No

String

Nombre de la columna de destino.

src_name

No

String

Nombre de la columna de origen.

Tabla 5 SourceInfo

Parámetro

Obligatorio

Tipo

Descripción

cluster_id

No

String

ID de un clúster MRS.

cluster_mode

No

String

Modo de ejecución de un clúster MRS. Opciones:

  • 0: clúster normal
  • 1: clúster de seguridad

cluster_name

No

String

Nombre de un clúster MRS.

database_name

No

String

Nombre de la base de datos a la que se importa el conjunto de datos de la tabla.

input

No

String

Ruta HDFS de un conjunto de datos de tabla.

ip

No

String

Dirección IP del clúster de GaussDB(DWS).

port

No

String

Número de puerto del clúster GaussDB(DWS).

queue_name

No

String

Nombre de la cola DLI de un conjunto de datos de tabla.

subnet_id

No

String

ID de subred de un clúster MRS.

table_name

No

String

Nombre de la tabla a la que se importa un conjunto de datos de tabla.

user_name

No

String

Nombre de usuario, que es obligatorio para los datos de GaussDB(DWS).

user_password

No

String

Contraseña de usuario, que es obligatoria para los datos de GaussDB(DWS).

vpc_id

No

String

ID de la VPC donde reside un clúster MRS.

Tabla 6 LabelFormat

Parámetro

Obligatorio

Tipo

Descripción

label_type

No

String

Tipo de etiqueta de clasificación de texto. Opciones:- 0: La etiqueta está separada del texto, y se distinguen por el sufijo fijo _result. Por ejemplo, el archivo de texto es abc.txt y el archivo de etiqueta es abc_result.txt.- 1: Valor predeterminado. Las etiquetas y los textos se almacenan en el mismo archivo y se separan por separadores. Puede utilizar text_sample_separator para especificar el separador entre el texto y la etiqueta y text_label_separator para especificar el separador entre etiquetas.

text_label_separator

No

String

Separador entre etiquetas. Por defecto, se utiliza un (,) de comas como separador. El separador necesita escaparse. El separador puede contener solo un carácter, como una letra, un dígito o cualquiera de los siguientes characters:!@#$%^&*_=|?/':.;,

text_sample_separator

No

String

Separador entre el texto y la etiqueta. Por defecto, la tecla Tab se utiliza como separador. El separador necesita escaparse. El separador puede contener solo un carácter, como una letra, un dígito o cualquiera de los siguientes characters:!@#$%^&*_=|?/':.;,

Tabla 7 Nombre

Parámetro

Obligatorio

Tipo

Descripción

attributes

No

Array of LabelAttribute objects

Atributo multidimensional de una etiqueta. Por ejemplo, si la etiqueta es música, se pueden incluir atributos como el estilo y el artista.

name

No

String

Nombre de la etiqueta.

property

No

LabelProperty object

Par clave-valor de atributo básico de una etiqueta, como el color y las teclas de método abreviado.

type

No

Integer

Tipo de etiqueta. Opciones:

  • 0: clasificación de imágenes
  • 1: detección de objetos
  • 3: segmentación de la imagen
  • 100: Clasificación del texto
  • 101: reconocimiento de entidad nombrada
  • 102: Relación de trillizos de texto
  • 103: Entidad triplete de texto
  • 200: clasificación de sonido
  • 201: Etiquetado de voz
  • 202: Etiquetado de párrafo de discurso
  • 600: etiquetado de vídeo
Tabla 8 LabelAttribute

Parámetro

Obligatorio

Tipo

Descripción

default_value

No

String

Valor predeterminado de un atributo label.

id

No

String

ID de atributo de etiqueta.

name

No

String

Nombre del atributo de etiqueta.

type

No

String

Tipo de atributo de etiqueta. Opciones:

  • text: text
  • select: lista desplegable de una sola opción

values

No

Array of LabelAttributeValue objects

Lista de valores de atributo de etiqueta.

Tabla 9 LabelAttributeValue

Parámetro

Obligatorio

Tipo

Descripción

id

No

String

ID de valor de atributo de etiqueta.

value

No

String

Valor del atributo de etiqueta.

Tabla 10 LabelProperty

Parámetro

Obligatorio

Tipo

Descripción

@modelarts:color

No

String

Atributo predeterminado: Color de etiqueta, que es un código hexadecimal del color. De forma predeterminada, este parámetro se deja en blanco. Ejemplo: #FFFFF0.

@modelarts:default_shape

No

String

Atributo predeterminado: forma predeterminada de una etiqueta de detección de objeto (atributo dedicado). De forma predeterminada, este parámetro se deja en blanco. Opciones:

  • bndbox: rectángulo
  • polygon: polígono
  • circle: círculo
  • line: línea recta
  • dashed: línea de puntos
  • point: punto
  • polyline: polilínea

@modelarts:from_type

No

String

Atributo por defecto: Tipo de la entidad de cabecera en la etiqueta de relación de triplete. Este atributo debe especificarse cuando se crea una etiqueta de relación. Este parámetro solo se utiliza para el conjunto de datos de texto triplete.

@modelarts:rename_to

No

String

Atributo predeterminado: el nuevo nombre de la etiqueta.

@modelarts:shortcut

No

String

Atributo predeterminado: Tecla de método abreviado de etiqueta. De forma predeterminada, este parámetro se deja en blanco. Por ejemplo: D.

@modelarts:to_type

No

String

Atributo por defecto: Tipo de la entidad de cola en la etiqueta de relación de triplete. Este atributo debe especificarse cuando se crea una etiqueta de relación. Este parámetro solo se utiliza para el conjunto de datos de texto triplete.

Tabla 11 Field

Parámetro

Obligatorio

Tipo

Descripción

description

No

String

Descripción del esquema.

name

No

String

Nombre del esquema.

schema_id

No

Integer

ID de esquema.

type

No

String

Tipo de valor de esquema.

Tabla 12 WorkforceInformation

Parámetro

Obligatorio

Tipo

Descripción

data_sync_type

No

Integer

Tipo de sincronización. Opciones:

  • 0: no se sincronizará
  • 1: datos a sincronizar
  • 2: etiqueta a sincronizar
  • 3: datos y etiqueta a sincronizar

repetition

No

Integer

Número de personas que etiquetan cada muestra. El valor mínimo es 1.

synchronize_auto_labeling_data

No

Boolean

Si se deben actualizar sincrónicamente los datos de etiquetado automático. Opciones:

  • true: Actualiza los datos de etiquetado automático de forma síncrona.
  • false: No actualice los datos de etiquetado automático de forma síncrona.

synchronize_data

No

Boolean

Si desea sincronizar datos actualizados, como cargar archivos, sincronizar orígenes de datos y asignar archivos importados sin etiqueta a los miembros del equipo. Opciones:

  • true: Sincroniza los datos actualizados con los miembros del equipo.
  • false: no sincronizar los datos actualizados con los miembros del equipo.

task_id

No

String

ID de una tarea de etiquetado de equipo.

task_name

Yes

String

Nombre de una tarea de etiquetado de equipo. El valor contiene de 1 a 64 caracteres, incluyendo solo letras, dígitos, (_), de guiones bajos y (-) de guiones.

workforces_config

No

WorkforcesConfig object

Asignación de mano de obra de una tarea de etiquetado de equipo. Puede delegar al administrador para asignar la mano de obra o hacerlo usted mismo.

Tabla 13 WorkforcesConfig

Parámetro

Obligatorio

Tipo

Descripción

agency

No

String

Administrador del equipo.

workforces

No

Array of WorkforceConfig objects

Lista de equipos que ejecutan tareas de etiquetado.

Tabla 14 WorkforceConfig

Parámetro

Obligatorio

Tipo

Descripción

workers

No

Array of Worker objects

Lista de miembros del equipo de etiquetado.

workforce_id

No

String

ID de un equipo de etiquetado.

workforce_name

No

String

Nombre de un equipo de etiquetado. El valor contiene de 0 a 1024 caracteres y no admite los siguientes caracteres especiales:!<>=&"'

Tabla 15 Trabajador

Parámetro

Obligatorio

Tipo

Descripción

create_time

No

Long

Tiempo de creación.

description

No

String

Descripción del miembro del equipo de etiquetado. El valor contiene de 0 a 256 caracteres y no admite los siguientes caracteres especiales: ^!<>=&"'

email

No

String

Dirección de correo electrónico de un miembro del equipo de etiquetado.

role

No

Integer

Rol. Opciones:

  • 0: personal de etiquetado
  • 1: revisor
  • 2: administrador del equipo
  • 3: propietario del conjunto de datos

status

No

Integer

Estado actual de inicio de sesión de un miembro del equipo de etiquetado. Opciones:

  • 0: El correo electrónico de invitación no se ha enviado.
  • 1: El correo electrónico de invitación se ha enviado pero el usuario no ha iniciado sesión.
  • 2: El usuario ha iniciado sesión.
  • 3: Se ha eliminado el miembro del equipo de etiquetado.

update_time

No

Long

Tiempo de actualización.

worker_id

No

String

ID de un miembro del equipo de etiquetado.

workforce_id

No

String

ID de un equipo de etiquetado.

Parámetros de respuesta

Código de estado: 201

Tabla 16 Parámetros de body de respuesta

Parámetro

Tipo

Descripción

dataset_id

String

ID de conjunto de datos.

error_code

String

Código de error.

error_msg

String

Mensaje de error.

import_task_id

String

ID de una tarea de importación.

Solicitudes de ejemplo

  • Creación de un conjunto de datos de clasificación de imágenes
    {
      "workspace_id" : "0",
      "dataset_name" : "dataset-457f",
      "dataset_type" : 0,
      "data_sources" : [ {
        "data_type" : 0,
        "data_path" : "/test-obs/classify/input/cat-dog/"
      } ],
      "description" : "",
      "work_path" : "/test-obs/classify/output/",
      "work_path_type" : 0,
      "labels" : [ {
        "name" : "Cat",
        "type" : 0,
        "property" : {
          "@modelarts:color" : "#3399ff"
        }
      }, {
        "name" : "Dog",
        "type" : 0,
        "property" : {
          "@modelarts:color" : "#3399ff"
        }
      } ]
    }
  • Creación de un conjunto de datos de detección de objetos
    {
      "workspace_id" : "0",
      "dataset_name" : "dataset-95a6",
      "dataset_type" : 1,
      "data_sources" : [ {
        "data_type" : 0,
        "data_path" : "/test-obs/detect/input/cat-dog/"
      } ],
      "description" : "",
      "work_path" : "/test-obs/detect/output/",
      "work_path_type" : 0,
      "labels" : [ {
        "name" : "Cat",
        "type" : 1,
        "property" : {
          "@modelarts:color" : "#3399ff"
        }
      }, {
        "name" : "Dog",
        "type" : 1,
        "property" : {
          "@modelarts:color" : "#3399ff"
        }
      } ]
    }
  • Creación de una tabla de conjunto de datos
    {
      "workspace_id" : "0",
      "dataset_name" : "dataset-de83",
      "dataset_type" : 400,
      "data_sources" : [ {
        "data_type" : 0,
        "data_path" : "/test-obs/table/input/",
        "with_column_header" : true
      } ],
      "description" : "",
      "work_path" : "/test-obs/table/output/",
      "work_path_type" : 0,
      "schema" : [ {
        "schema_id" : 1,
        "name" : "150",
        "type" : "STRING"
      }, {
        "schema_id" : 2,
        "name" : "4",
        "type" : "STRING"
      }, {
        "schema_id" : 3,
        "name" : "setosa",
        "type" : "STRING"
      }, {
        "schema_id" : 4,
        "name" : "versicolor",
        "type" : "STRING"
      }, {
        "schema_id" : 5,
        "name" : "virginica",
        "type" : "STRING"
      } ],
      "import_data" : true
    }

Ejemplo de respuestas

Código de estado: 201

Created

{
  "dataset_id" : "WxCREuCkBSAlQr9xrde"
}

Códigos de estado

Código de estado

Descripción

201

Created

401

Unauthorized

403

Forbidden

404

Not Found

Códigos de error

Consulte Códigos de error.