更新时间:2025-07-02 GMT+08:00

音频类加工算子介绍

平台支持音频类数据集的加工操作,音频类加工算子能力清单见表1

表1 音频类加工算子能力清单

算子分类

算子名称

算子描述

数据转换

噪声添加

给音频添加噪声

噪声抑制

移除音频中的纯噪声片段并进行降噪。

音调变化

调整原始音频的音调

混响减少

减少声音在空间中的混响效果,提高语音可懂度。

语音匿名化

对音频进行匿名化处理,匿名化后的音频与原始说话人音色和声纹有明显区分度。

语音降噪

对原始音频进行降噪,且只考虑噪声与人声叠加的情况,对于纯噪声音频或者纯噪声片段,不做约束。

语速调整

调整音频中的说话速度。

语音风格转换

对原始音频依据给定的目标风格进行转换。

音频量化编码

将一个高分辨率的含有头信息的音频文件,通过音频编解码技术、量化压缩技术转换成 16k 采样率 alaw/ulaw/pcm/wav 文件。

数据打标

语音语种识别标注

识别音频中说话人所使用的语种,并给出相应的置信度。

普通话语音转文本

将普通话语音快速转化为文本,以丰富人机交互场景。

语音情绪识别标注

识别输入音频中说话人的情绪。

语音端点检测

检测音频中多段人声各自的起止时间。

噪声水平评估

对含有人声片段的音频进行质量打分。

静默片段检测

识别音频中的静音片段及置信度,并给出静音片段的占比。

多说话人语音识别

识别音频内容,返回每个说话人说话的起止时间及对应内容。

个人隐私对话识别

给个人隐私语音内容打标签。

违禁语音检测

给违禁语音内容打标签。

政治敏感语音识别

给政治敏感语音内容打标签。

色情语音内容检测

给色情语音内容打标签。

噪声添加

  • 适用的文件格式:纯音频,60s内采样率16k的wav音频文件。
  • 算子说明:给音频添加噪声
  • 各参数说明:

    噪声类型:添加的噪声类型,混合噪声为高斯噪声与椒盐噪声的叠加

    信噪比: 正常声音信号强度与噪声信号强度的比值

噪声抑制

  • 适用的文件格式:纯音频,30s内采样率16k、位深16bit单通道的wav音频文件。
  • 算子说明:移除音频中的纯噪声片段并进行降噪。
  • 参数配置样例:

    不需要配置参数。

音调变化

  • 适用的文件格式:纯音频,60s内的音频文件。
  • 算子说明:调整原始音频的音调
  • 各参数说明:

    音调:音调参数

混响减少

  • 适用的文件格式:纯音频,60s内采样率16k的wav音频文件。
  • 算子说明:减少声音在空间中的混响效果,提高语音可懂度。
  • 参数配置样例:

    不需要配置参数

语音匿名化

  • 适用的文件格式:纯音频,30s内采样率16k、位深16bit单通道的wav音频文件。
  • 算子说明:对音频进行匿名化处理,匿名化后的音频与原始说话人音色和声纹有明显区分度。
  • 参数配置样例:

    不需要配置参数

语音降噪

  • 适用的文件格式:纯音频,采样率16k、位深16bit单通道的wav音频文件。
  • 算子说明:对原始音频进行降噪,且只考虑噪声与人声叠加的情况,对于纯噪声音频或者纯噪声片段,不做约束。
  • 参数配置样例:

    不需要配置参数

语速调整

  • 适用的文件格式:纯音频,60s内的wav音频文件。
  • 算子说明:调整音频中的说话速度。
  • 各参数说明:

    语速:语速参数, 取值在 0.5~2 之间

语音风格转换

  • 适用的文件格式:纯音频,50MB内的音频文件。
  • 算子说明:对原始音频依据给定的目标风格进行转换。
  • 各参数说明:

    语音风格 :转换后的语音风格

音频量化编码

  • 适用的文件格式:纯音频,100MB内的音频文件。
  • 算子说明:将一个高分辨率的含有头信息的音频文件,通过音频编解码技术、量化压缩技术转换成 16k 采样率 alaw/ulaw/pcm/wav 文件。
  • 参数配置样例:

    不需要配置参数

语音语种识别标注

  • 适用的文件格式:纯音频,60s内采样率16k、位深16bit的wav音频文件。
  • 算子说明:识别音频中说话人所使用的语种,并给出相应的置信度。
  • 参数配置样例:

    不需要配置参数

普通话语音转文本

  • 适用的文件格式:纯音频,60s内的音频文件。
  • 算子说明:将普通话语音快速转化为文本,以丰富人机交互场景。
  • 各参数说明:

    标点 :识别结果是否添加标点符号

    数字转换:是否将语音中的数字识别为阿拉伯数字

    是否分词信息 :识别结果是否包含分词结果信息

语音情绪识别标注

  • 适用的文件格式:纯音频,60s内采样率16k、位深16bit的wav音频文件。
  • 算子说明:识别输入音频中说话人的情绪。
  • 参数配置样例:

    不需要配置参数

语音端点检测

  • 适用的文件格式:纯音频,600s内采样率16k、位深16bit的wav音频文件。
  • 算子说明:检测音频中多段人声各自的起止时间。
  • 参数配置样例:

    不需要配置参数

噪声水平评估

  • 适用的文件格式:纯音频,60s内采样率16k、位深16bit的wav音频文件。
  • 算子说明:对含有人声片段的音频进行质量打分。
  • 参数配置样例:

    不需要配置参数

静默片段检测

  • 适用的文件格式:纯音频,600s内采样率16k、位深16bit的音频文件。
  • 算子说明:识别音频中的静音片段及置信度,并给出静音片段的占比。
  • 参数配置样例:

    不需要配置参数

多说话人语音识别

  • 适用的文件格式:纯音频,1小时内、单通道的音频文件。
  • 算子说明:识别音频内容,返回每个说话人说话的起止时间及对应内容。
  • 各参数说明:

    标点:识别结果是否添加标点符号

    数字转换 :是否将语音中的数字识别为阿拉伯数字

    分词信息 :识别结果是否包含分词结果信息

    话者分离:识别结果是否包含说话人信息

    语速 :识别结果是否包含说话人语速信息

个人隐私对话识别

  • 适用的文件格式:纯音频,60s内的音频文件。
  • 算子说明:给个人隐私语音内容打标签。
  • 参数配置样例:

    不需要配置参数

违禁语音检测算子

  • 适用的文件格式:纯音频,60s内的音频文件。
  • 算子说明:给违禁语音内容打标签。
  • 参数配置样例:

    不需要配置参数

政治敏感语音识别

  • 适用的文件格式:纯音频,60s内的音频文件。
  • 算子说明:给政治敏感语音内容打标签。
  • 参数配置样例:

    不需要配置参数

色情语音内容检测算子

  • 适用的文件格式:纯音频,60s内的音频文件。
  • 算子说明:给色情语音内容打标签。
  • 参数配置样例:

    不需要配置参数