平台支持音频类数据集的加工操作,音频类加工算子能力清单见表1。
表1 音频类加工算子能力清单
算子分类 |
算子名称 |
算子描述 |
数据转换 |
噪声添加 |
给音频添加噪声。 |
噪声抑制 |
移除音频中的纯噪声片段并进行降噪。 |
音调变化 |
调整原始音频的音调。 |
混响减少 |
减少声音在空间中的混响效果,提高语音可懂度。 |
语音匿名化 |
对音频进行匿名化处理,匿名化后的音频与原始说话人音色和声纹有明显区分度。 |
语音降噪 |
对原始音频进行降噪,且只考虑噪声与人声叠加的情况,对于纯噪声音频或者纯噪声片段,不做约束。 |
语速调整 |
调整音频中的说话速度。 |
音频量化编码 |
将一个高分辨率的含有头信息的音频文件,通过音频编解码技术、量化压缩技术转换成16k采样率alaw/ulaw/pcm/wav文件。 |
数据打标 |
语音语种识别标注 |
识别音频中说话人所使用的语种,并给出相应的置信度。 |
普通话语音转文本 |
将普通话语音快速转化为文本,以丰富人机交互场景。 |
语音情绪识别标注 |
识别输入音频中说话人的情绪。 |
语音端点检测 |
检测音频中多段人声各自的起止时间。 |
噪声水平评估 |
对含有人声片段的音频进行质量打分。 |
静默片段检测 |
识别音频中的静音片段及置信度,并给出静音片段的占比。 |
多说话人语音识别 |
识别音频内容,返回每个说话人说话的起止时间及对应内容。 |
个人隐私对话识别 |
给个人隐私语音内容打标签。 |
违禁语音检测 |
给违禁语音内容打标签。 |
政治敏感语音识别 |
给政治敏感语音内容打标签。 |
色情语音内容检测 |
给色情语音内容打标签。 |
噪声抑制
- 适用的文件格式:纯音频,30s内采样率16k、位深16bit单通道的wav音频文件。
- 算子说明:移除音频中的纯噪声片段并进行降噪。
- 参数配置样例:
不需要配置参数。
音调变化
- 适用的文件格式:纯音频,60s内的音频文件。
- 算子说明:调整原始音频的音调。
- 各参数说明:
音调:音调参数。
- 参数配置样例:

混响减少
- 适用的文件格式:纯音频,60s内采样率16k的wav音频文件。
- 算子说明:减少声音在空间中的混响效果,提高语音可懂度。
- 参数配置样例:
不需要配置参数。
语音匿名化
- 适用的文件格式:纯音频,30s内采样率16k、位深16bit单通道的wav音频文件。
- 算子说明:对音频进行匿名化处理,匿名化后的音频与原始说话人音色和声纹有明显区分度。
- 参数配置样例:
不需要配置参数。
语音降噪
- 适用的文件格式:纯音频,采样率16k、位深16bit单通道的wav音频文件。
- 算子说明:对原始音频进行降噪,且只考虑噪声与人声叠加的情况,对于纯噪声音频或者纯噪声片段,不做约束。
- 参数配置样例:
不需要配置参数。
语速调整
- 适用的文件格式:纯音频,60s内的wav音频文件。
- 算子说明:调整音频中的说话速度。
- 各参数说明:
语速:语速参数, 取值在 0.5~2 之间。
- 参数配置样例:

音频量化编码
- 适用的文件格式:纯音频,100MB内的音频文件。
- 算子说明:将一个高分辨率的含有头信息的音频文件,通过音频编解码技术、量化压缩技术转换成16k采样率alaw/ulaw/pcm/wav文件。
- 参数配置样例:
不需要配置参数。
语音语种识别标注
- 适用的文件格式:纯音频,60s内采样率16k、位深16bit的wav音频文件。
- 算子说明:识别音频中说话人所使用的语种,并给出相应的置信度。
- 参数配置样例:
不需要配置参数。
普通话语音转文本
- 适用的文件格式:纯音频,60s内的音频文件。
- 算子说明:将普通话语音快速转化为文本,以丰富人机交互场景。
- 各参数说明:
标点 :识别结果是否添加标点符号。
数字转换:是否将语音中的数字识别为阿拉伯数字。
是否分词信息 :识别结果是否包含分词结果信息。
- 参数配置样例:

语音情绪识别标注
- 适用的文件格式:纯音频,60s内采样率16k、位深16bit的wav音频文件。
- 算子说明:识别输入音频中说话人的情绪。
- 参数配置样例:
不需要配置参数。
语音端点检测
- 适用的文件格式:纯音频,600s内采样率16k、位深16bit的wav音频文件。
- 算子说明:检测音频中多段人声各自的起止时间。
- 参数配置样例:
不需要配置参数。
噪声水平评估
- 适用的文件格式:纯音频,60s内采样率16k、位深16bit的wav音频文件。
- 算子说明:对含有人声片段的音频进行质量打分。
- 参数配置样例:
不需要配置参数。
静默片段检测
- 适用的文件格式:纯音频,600s内采样率16k、位深16bit的音频文件。
- 算子说明:识别音频中的静音片段及置信度,并给出静音片段的占比。
- 参数配置样例:
不需要配置参数。
多说话人语音识别
- 适用的文件格式:纯音频,1小时内、单通道的音频文件。
- 算子说明:识别音频内容,返回每个说话人说话的起止时间及对应内容。
- 各参数说明:
标点:识别结果是否添加标点符号。
数字转换 :是否将语音中的数字识别为阿拉伯数字。
分词信息 :是否将语音中的数字识别为阿拉伯数字。
话者分离:识别结果是否包含说话人信息。
语速 :识别结果是否包含说话人语速信息。
- 参数配置样例:

个人隐私对话识别
- 适用的文件格式:纯音频,60s内的音频文件。
- 算子说明:给个人隐私语音内容打标签。
- 参数配置样例:
不需要配置参数。
违禁语音检测算子
- 适用的文件格式:纯音频,60s内的音频文件。
- 算子说明:给违禁语音内容打标签。
- 参数配置样例:
不需要配置参数。
政治敏感语音识别
- 适用的文件格式:纯音频,60s内的音频文件。
- 算子说明:给政治敏感语音内容打标签。
- 参数配置样例:
不需要配置参数。
色情语音内容检测算子
- 适用的文件格式:纯音频,60s内的音频文件。
- 算子说明:给色情语音内容打标签。
- 参数配置样例:
不需要配置参数。