音频类加工算子介绍
平台支持音频类数据集的加工操作,音频类加工算子能力清单见表1。
算子分类 | 算子名称 | 算子描述 |
|---|---|---|
数据转换 | 给音频添加噪声。 | |
移除音频中的纯噪声片段并进行降噪。 | ||
调整原始音频的音调 | ||
减少声音在空间中的混响效果,提高语音可懂度。 | ||
对音频进行匿名化处理,匿名化后的音频与原始说话人音色和声纹有明显区分度。 | ||
对原始音频进行降噪,且只考虑噪声与人声叠加的情况,对于纯噪声音频或者纯噪声片段,不做约束。 | ||
调整音频中的说话速度。 | ||
将一个高分辨率的含有头信息的音频文件,通过音频编解码技术、量化压缩技术转换成16k采样率alaw/μlaw/pcm/wav文件。 | ||
数据打标 | 识别音频中说话人所使用的语种,并给出相应的置信度。 | |
将普通话语音快速转化为文本,以丰富人机交互场景。 | ||
识别输入音频中说话人的情绪。 | ||
检测音频中多段人声各自的起止时间。 | ||
对含有人声片段的音频进行质量打分。 | ||
识别音频中的静音片段及置信度,并给出静音片段的占比。 | ||
识别音频内容,返回每个说话人说话的起止时间及对应内容。 | ||
给个人隐私语音内容打标签。 | ||
给违禁语音内容打标签。 | ||
给政治敏感语音内容打标签。 | ||
给色情语音内容打标签。 |

加工音频模态数据时,除了色情语音内容检测算子之外,使用其他算子时,需要在加工流程中加入音频量化编码,将音频量化编码设置为首算子。










