文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 使用数据工程构建数据集/ 加工数据集/ 管理加工算子/ 系统预置加工算子介绍/ 音频类加工算子介绍

更新时间：2026-06-17 GMT+08:00

音频类加工算子介绍

平台支持音频类数据集的加工操作，音频类加工算子能力清单见表1。

表1 音频类加工算子能力清单
算子分类	算子名称	算子描述
数据转换	噪声添加	给音频添加噪声。
	噪声抑制	移除音频中的纯噪声片段并进行降噪。
	音调变化	调整原始音频的音调
	混响减少	减少声音在空间中的混响效果，提高语音可懂度。
	语音匿名化	对音频进行匿名化处理，匿名化后的音频与原始说话人音色和声纹有明显区分度。
	语音降噪	对原始音频进行降噪，且只考虑噪声与人声叠加的情况，对于纯噪声音频或者纯噪声片段，不做约束。
	语速调整	调整音频中的说话速度。
	音频量化编码	将一个高分辨率的含有头信息的音频文件，通过音频编解码技术、量化压缩技术转换成16k采样率alaw/μlaw/pcm/wav文件。
数据打标	语音语种识别标注	识别音频中说话人所使用的语种，并给出相应的置信度。
	普通话语音转文本	将普通话语音快速转化为文本，以丰富人机交互场景。
	语音情绪识别标注	识别输入音频中说话人的情绪。
	语音端点检测	检测音频中多段人声各自的起止时间。
	噪声水平评估	对含有人声片段的音频进行质量打分。
	静默片段检测	识别音频中的静音片段及置信度，并给出静音片段的占比。
	多说话人语音识别	识别音频内容，返回每个说话人说话的起止时间及对应内容。
	个人隐私对话识别	给个人隐私语音内容打标签。
	违禁语音检测	给违禁语音内容打标签。
	政治敏感语音识别	给政治敏感语音内容打标签。
	色情语音内容检测	给色情语音内容打标签。

加工音频模态数据时，除了色情语音内容检测算子之外，使用其他算子时，需要在加工流程中加入音频量化编码，将音频量化编码设置为首算子。

噪声添加

适用的文件格式：纯音频，60s内采样率16k的wav音频文件。
算子说明：给音频添加噪声。
各参数说明：
噪声类型：添加的噪声类型，混合噪声为高斯噪声与椒盐噪声的叠加。

信噪比: 正常声音信号强度与噪声信号强度的比值。
参数配置样例：

噪声抑制

适用的文件格式：纯音频，30s内采样率16k、位深16bit单通道的wav音频文件。
算子说明：移除音频中的纯噪声片段并进行降噪。
参数配置样例：
不需要配置参数。

音调变化

适用的文件格式：纯音频，60s内的音频文件。
算子说明：调整原始音频的音调。
各参数说明：
音调：音调参数。
参数配置样例：

混响减少

适用的文件格式：纯音频，60s内采样率16k的wav音频文件。
算子说明：减少声音在空间中的混响效果，提高语音可懂度。
参数配置样例：
不需要配置参数。

语音匿名化

适用的文件格式：纯音频，30s内采样率16k、位深16bit单通道的wav音频文件。
算子说明：对音频进行匿名化处理，匿名化后的音频与原始说话人音色和声纹有明显区分度。
参数配置样例：
不需要配置参数。

语音降噪

适用的文件格式：纯音频，采样率16k、位深16bit单通道的wav音频文件。
算子说明：对原始音频进行降噪，且只考虑噪声与人声叠加的情况，对于纯噪声音频或者纯噪声片段，不做约束。
参数配置样例：
不需要配置参数。

语速调整

适用的文件格式：纯音频，60s内的wav音频文件。
算子说明：调整音频中的说话速度。
各参数说明：
语速：语速参数，取值在 0.5~2 之间。
参数配置样例：

音频量化编码

适用的文件格式：纯音频，100MB内的音频文件。
算子说明：将一个高分辨率的含有头信息的音频文件，通过音频编解码技术、量化压缩技术转换成16k采样率alaw/μlaw/pcm/wav文件。
参数配置样例：
不需要配置参数。

语音语种识别标注

适用的文件格式：纯音频，60s内采样率16k、位深16bit的wav音频文件。
算子说明：识别音频中说话人所使用的语种，并给出相应的置信度。
参数配置样例：
不需要配置参数。

普通话语音转文本

适用的文件格式：纯音频，60s内的音频文件。
算子说明：将普通话语音快速转化为文本，以丰富人机交互场景。
各参数说明：
标点：识别结果是否添加标点符号。

数字转换：是否将语音中的数字识别为阿拉伯数字。

是否分词信息：识别结果是否包含分词结果信息。
参数配置样例：

语音情绪识别标注

适用的文件格式：纯音频，60s内采样率16k、位深16bit的wav音频文件。
算子说明：识别输入音频中说话人的情绪。
参数配置样例：
不需要配置参数。

语音端点检测

适用的文件格式：纯音频，600s内采样率16k、位深16bit的wav音频文件。
算子说明：检测音频中多段人声各自的起止时间。
参数配置样例：
不需要配置参数。

噪声水平评估

适用的文件格式：纯音频，60s内采样率16k、位深16bit的wav音频文件。
算子说明：对含有人声片段的音频进行质量打分。
参数配置样例：
不需要配置参数。

静默片段检测

适用的文件格式：纯音频，600s内采样率16k、位深16bit的音频文件。
算子说明：识别音频中的静音片段及置信度，并给出静音片段的占比。
参数配置样例：
不需要配置参数。

多说话人语音识别

适用的文件格式：纯音频，1小时内、单通道的音频文件。
算子说明：识别音频内容，返回每个说话人说话的起止时间及对应内容。
各参数说明：
标点：识别结果是否添加标点符号。

数字转换：是否将语音中的数字识别为阿拉伯数字。

分词信息：识别结果是否包含分词结果信息。

话者分离：识别结果是否包含说话人信息。

语速：识别结果是否包含说话人语速信息。
参数配置样例：

个人隐私对话识别

适用的文件格式：纯音频，60s内的音频文件。
算子说明：给个人隐私语音内容打标签。
参数配置样例：

违禁语音检测算子

适用的文件格式：纯音频，60s内的音频文件。
算子说明：给违禁语音内容打标签。
参数配置样例：

政治敏感语音识别

适用的文件格式：纯音频，60s内的音频文件。
算子说明：给政治敏感语音内容打标签。
参数配置样例：

色情语音内容检测算子

适用的文件格式：纯音频，60s内的音频文件。
算子说明：给色情语音内容打标签。
参数配置样例：

父主题： 系统预置加工算子介绍

上一篇：气象类加工算子介绍

下一篇：预测类加工算子介绍

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问