更新时间:2025-07-02 GMT+08:00
音频类加工算子介绍
平台支持音频类数据集的加工操作,音频类加工算子能力清单见表1。
算子分类 |
算子名称 |
算子描述 |
---|---|---|
数据转换 |
给音频添加噪声 |
|
移除音频中的纯噪声片段并进行降噪。 |
||
调整原始音频的音调 |
||
减少声音在空间中的混响效果,提高语音可懂度。 |
||
对音频进行匿名化处理,匿名化后的音频与原始说话人音色和声纹有明显区分度。 |
||
对原始音频进行降噪,且只考虑噪声与人声叠加的情况,对于纯噪声音频或者纯噪声片段,不做约束。 |
||
调整音频中的说话速度。 |
||
对原始音频依据给定的目标风格进行转换。 |
||
将一个高分辨率的含有头信息的音频文件,通过音频编解码技术、量化压缩技术转换成 16k 采样率 alaw/ulaw/pcm/wav 文件。 |
||
数据打标 |
识别音频中说话人所使用的语种,并给出相应的置信度。 |
|
将普通话语音快速转化为文本,以丰富人机交互场景。 |
||
识别输入音频中说话人的情绪。 |
||
检测音频中多段人声各自的起止时间。 |
||
对含有人声片段的音频进行质量打分。 |
||
识别音频中的静音片段及置信度,并给出静音片段的占比。 |
||
识别音频内容,返回每个说话人说话的起止时间及对应内容。 |
||
给个人隐私语音内容打标签。 |
||
给违禁语音内容打标签。 |
||
给政治敏感语音内容打标签。 |
||
给色情语音内容打标签。 |
父主题: 系统预置加工算子介绍