更新时间:2025-07-30 GMT+08:00
分享

算子配置文件规范

表1 基本信息配置规范

参数名称

类型

是否必填

描述

约束

id

string

算子英文简称。

以英文字符开头,可包含英文字符、阿拉伯数字和下划线“_”,字符长度不超过128,超过部分自动截断。

算子更新配置时不可修改id。

全空间可见算子id全空间唯一,本空间可见算子id在当前空间下唯一。

name

string

算子展示名称。

字符长度不超过128,超过部分自动截断。

description

string

算子描述。

字符长度不超过2000,超过部分自动截断。

author

string

开发者名称。

字符长度不超过128,超过部分自动截断。

version

string

算子版本。

字符长度不超过32,超过部分自动截断,格式为:数字.数字.数字。

tags

tags object

算子标签,用于分类筛选。

表 label配置规范

labels

Array of label objects

打标算子输出的标签。

表 label配置规范

runtime

runtime object

算子运行配置。

表 label配置规范

arguments

Array of argument objects

算子输入参数列表。

表5

表2 tag配置规范

参数名称

类型

是否必填

描述

约束

language

Array of strings

算子支持处理的数据语种列表,例如zh,en等。

单个字符串长度不超过32,超过部分自动截断。

填写国际语种简码。

format

Array of strings

算子支持处理的数据集文件格式后缀列表,例如json,csv,mp4等。

单个字符串长度不超过32,超过部分自动截断。

category

string

算子类别。

单选,可选取值如下:

- 数据提取

- 数据抽样

- 数据转换

- 数据过滤

- 数据去重

- 数据打标

- 其他

modal

Array of strings

算子支持处理的数据模态列表。

多选,可选取值如下:

- TEXT(文本)

- IMAGE(图片)

- VIDEO(视频)

- AUDIO(音频)

- OTHER(含气象、预测)

custom

Array of strings

用户自定义算子标签列表。

单个字符串长度不超过32,超过部分自动截断。

表3 runtime配置规范

参数名称

类型

是否必填

描述

约束

cpu-arch

Array of strings

算子运行支持的CPU架构列表。

多选,可选取值如下:

- ARM

- X86

xpu-devices

Array of strings

算子运行的支持卡设备型号列表,当算子运行涉及NPU时必填。

可选取值如下:

- SNT9B

当参数runtime.resources中存在某个resource的npu个数大于0的情况时,该参数必填,可选值为SNT9B。

environment

string

算子包类型,仅支持纯python算子包类型。

单选,可选取值如下:

- PYTHON

entrypoint

string

算子运行的启动命令。

字符长度不超过128,超过部分自动截断。

当environment=python时填写固定名称process.py,暂不支持修改。

auto-data-loading

boolean

是否自动加载数据

当值为true时,由框架处理输入输出;当值为false时,由用户自己处理输入输出。

resources

Array of resource objects

算子单实例运行所需的资源大小配置列表。

当environment=python时必填。

表4 resource配置规范

参数名称

类型

是否必填

描述

约束

cpu

integer

单实例默认CPU资源量(单位:vCPU)。

用户需结合实际订购的通算单元数量进行配置。

memory

integer

单实例默认memory资源量(单位:MB)。

用户需结合实际订购的通算单元数量进行配置。

npu

integer

单实例默认NPU资源量(单位:卡)。

用户需结合实际订购的智算单元规格和数量进行配置。

表5 argument配置规范

参数名称

类型

是否必填

描述

约束

key

string

参数id,参数列表内必须唯一。

字符长度不超过128,超过部分自动截断。

name

string

参数展示名称。

字符长度不超过128,超过部分自动截断。

type

string

参数类型.

单选,可选取值如下:

- STRING

- FLOAT

- INT

- ENUM(单选)

- LIST(复选)

- OBS(前端使用,选择OBS文件的前端组件参数)

- BOOLEAN

tips

string

参数说明。

字符长度不超过2000,超过部分自动截断。

min

float

参数最小值。当type=INT或FLOAT时选填。

浮点数最多保留4位小数。

max

float

参数最小值。当type=INT或FLOAT时选填。

浮点数最多保留4位小数。

between

boolean

参数是否为范围型数值参数。当type=INT或FLOAT时选填,默认为false。

-

items

Array of item objects

参数枚举项列表。当type=ENUM /LIST时必填。

当type=ENUM /LIST时该参数必填且枚举项个数至少为1。

required

boolean

参数是否必填。

填写true或者false。

visible

boolean

参数是否前端可见。

填写true或者false。

default

string

参数默认值。

当visible=false且requires=true时必须填默认值。

多个默认值时用逗号分隔,例如“SD,HD”。

数值范围型参数默认值格式为"min;max"。

表6 item配置规范

参数名称

类型

是否必填

描述

约束

name

string

枚举项名称。

字符长度不超过128,超过部分自动截断。

value

string

枚举项对应的值。

字符长度不超过128,超过部分自动截断。

tips

string

枚举项描述或说明。

字符长度不超过2000,超过部分自动截断。

表7 label配置规范

参数名称

类型

是否必填

描述

约束

key

string

标签的key值。

字符长度不超过128,超过部分自动截断,key值在不同算子间唯一。

name

string

标签的名称。

字符长度不超过128,超过部分自动截断。

type

string

标签的类型。

枚举值,单选,仅支持STRING、NUMERIC、ENUM、OBJECT

min

float

标签最小值

当type为NUMERIC型时必填。

max

float

标签最大值

当type为NUMERIC型时必填。

items

Array of labelItem objects

标签枚举列表

当type为ENUM型时必填。

dimensions

Array of labelDimension objects

标签一级维度

当type为OBJECT型必填。

表8 labelItem配置规范

参数名称

类型

是否必填

描述

约束

name

string

枚举名称。

字符长度不超过128,超过部分自动截断。

value

string

枚举值。

字符长度不超过128,超过部分自动截断。

表9 labelDimension配置规范

参数名称

类型

是否必填

描述

约束

key

string

二级标签key。

字符长度不超过128,超过部分自动截断。

name

string

二级标签名称。

字符长度不超过128,超过部分自动截断。

type

string

二级标签类型。

枚举值,单选,仅支持STRING、NUMERIC、ENUM

min

float

二级标签的最小值。

当type为NUMERIC型时必填。

max

float

二级标签的最大值。

当type为NUMERIC型时必填。

items

Array of labelItem objects

二级标签的枚举列表。

当type为ENUM型时必填。

算子配置文件是一个YAML文件,用于描述算子的基本信息、功能参数、运行环境以及资源需求等。算子配置文件示例如下:

id: video_clip    #【必填】算子英文简称,英文字母开头,只能包含英文字符、数字和下划线,最多128个字符,超过做截断
name: 视频Clip切分 #【必填】算子展示名称,最多128个字符,超过做截断
description: 将长视频按镜头切分为多个片段。 #算子描述,不超过2000个字符
author: "xxx Technology Co., Ltd." #可选,开发者或团队名称,例如 "Data Team",不超过128个字符
version: 1.0.0  # 规则 "\\d+\\.\\d+\\.\\d+$"
tags:  # 【必填】算子标签,用于特定场景分类筛选
  language: # 【必填】算子支持处理的语言类型, 语言简码,多选,选项只能选择国际标准语言简码,不超过32个字符
    - zh
    - en
    -...
  format: # 【必填】算子支持处理的数据集文件格式,多选,不超过32个字符
      - JSONL
      - TXT
      - CSV
      - HTML
      - MOBI
      - EPUB
      - DOCX
      - PDF
      - MP4
      - AVI
      -...
  category: # 【必填】算子类型,用于前台的算子分类展示,单选,选项固定如下
    - 数据提取
    - 数据抽样
    - 数据转换
    - 数据过滤
    - 数据去重
    - 数据打标
    - 其他
  modal:   # 【必填】算子支持处理的数据模态。多选,选项固定如下
    - TEXT
    - IMAGE
    - VIDEO
    - AUDIO
    - OTHER
  custom: #用户自定义算子标签,多选,不超过32个字符
    - 数据增强
    - 预标注
    -...
  task-categories:
    - BACKFLOW  # 回流

runtime:
  cpu-arch:
    - ARM
  xpu-devices:
    - SNT9B
  # 算子资源配置:
  #   npu算子配置:1卡 24core 192GB
  #   cpu算子配置:1core 2G、1core 4G、2core 4G、4core 8G、8core 16G
  resources:
    - cpu: 1
      memory: 2048
    - cpu: 24
      memory: 196608 # 单位:MB
      npu: 1
  environment: python
  entrypoint: process.py
  auto-data-loading: true # 是否需要自动加载数据
#所有的业务参数均为算子的输入参数,参数的数据类型包含:STRING、FLOAT、INT、ENUM(单选框)、LIST(复选框)、OBS
arguments:
  # STING类型参数示例
  - key: filter_keywords  #【必填】
    name: 过滤关键词
    type: STRING
    tips: 命中的关键词所在的样本将会被过滤,多个关键词以英文字符","分隔。   #界面tips
    required: true
    visible: true
    default: 大保健  #参数默认值,可选,多个默认值使用,隔开

  # INT/FLOAT数值范围类型参数示例
  - key: length_of_characters  #【必填】
    name: 过滤时长范围
    type: FLOAT  #【必填】当type=int/float时,between字段为必填。
    between: true    # 是否取数值范围,当type=int/float时,between字段为必填。
    min: 1.0   #参数最小值的范围,可选;float最多【4位小数】,超过做截断
    max: 500.0    #参数最大值的范围,可选
    tips: 过滤时长范围包含填入的边界值,float类型,单位:字符。文本长度在指定范围内的样本将被保留。 #界面tips
    required: true
    visible: true
    default: 100.0;300.0  #可选, 参数最大最小值的默认值,可选,未填写时使用"min;max"作为默认

  # INT/FLOAT数值类型参数示例
  - key: max_cropping_area_ratio
    name: 最大裁剪面积占比
    type: FLOAT
    between: false # 是否是范围型,默认为false
    min: 0.0   #参数最小值的范围
    max: 100.0    #参数最大值的范围
    tips: 值在0.0~100.0之间,float类型,单位:%。裁剪面积占比(裁剪视频面积/原始视频面积)大于该值的样本将被过滤掉。
    visible: true
    required: true 
    default: 100  #参数默认值

  # ENUM类型参数示例
  - key: font_conversion
    name: 文本字体转换
    type: ENUM  #单选
    items:
      - name: 简体转繁体
        value: traditional
      - name: 繁体转简体
        value: simplified
    required: true
    visible: true
    default: simplified

  # LIST类型参数示例
  - key: resolution
    name: 分辨率
    type: LIST  #可多选
    items:  #参数选项,ENUM/LIST类型必填
      - name: 流畅   #【必填】
        value: SM   #【必填】
        tips: 480>分辨率≥360
      - name: 标清
        value: SD
        tips: 720>分辨率≥480
      - name: 高清
        value: HD
        tips: 1080>分辨率≥720
    required: true
    visible: true  
    default: SD,HD # 多个默认值使用,隔开

  # OBS类型参数示例
  - key: sensitive_word
    name: 敏感词库文件OBS路径
    type: OBS
    tips: 敏感词库文件。
    required: true
    visible: true
    default: NLP/system_resource/sensitive_word.csv # 默认词库的OBS路径。
  # BOOLEAN类型参数示例
  - key: parse_all
    name: 是否解析所有文件
    type: BOOLEAN
    items:
      - name: 是
        value: true
      - name: 否
        value: false
    visible: true
    required: true
    default: false

相关文档