文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 使用数据工程构建数据集/ 加工数据集/ 管理加工算子/ 系统预置加工算子介绍/ 音频类加工算子介绍

更新时间：2025-07-02 GMT+08:00

查看PDF

音频类加工算子介绍

平台支持音频类数据集的加工操作，音频类加工算子能力清单见表1。

表1 音频类加工算子能力清单
算子分类	算子名称	算子描述
数据转换	噪声添加	给音频添加噪声
	噪声抑制	移除音频中的纯噪声片段并进行降噪。
	音调变化	调整原始音频的音调
	混响减少	减少声音在空间中的混响效果，提高语音可懂度。
	语音匿名化	对音频进行匿名化处理，匿名化后的音频与原始说话人音色和声纹有明显区分度。
	语音降噪	对原始音频进行降噪，且只考虑噪声与人声叠加的情况，对于纯噪声音频或者纯噪声片段，不做约束。
	语速调整	调整音频中的说话速度。
	语音风格转换	对原始音频依据给定的目标风格进行转换。
	音频量化编码	将一个高分辨率的含有头信息的音频文件，通过音频编解码技术、量化压缩技术转换成 16k 采样率 alaw/ulaw/pcm/wav 文件。
数据打标	语音语种识别标注	识别音频中说话人所使用的语种，并给出相应的置信度。
	普通话语音转文本	将普通话语音快速转化为文本，以丰富人机交互场景。
	语音情绪识别标注	识别输入音频中说话人的情绪。
	语音端点检测	检测音频中多段人声各自的起止时间。
	噪声水平评估	对含有人声片段的音频进行质量打分。
	静默片段检测	识别音频中的静音片段及置信度，并给出静音片段的占比。
	多说话人语音识别	识别音频内容，返回每个说话人说话的起止时间及对应内容。
	个人隐私对话识别	给个人隐私语音内容打标签。
	违禁语音检测	给违禁语音内容打标签。
	政治敏感语音识别	给政治敏感语音内容打标签。
	色情语音内容检测	给色情语音内容打标签。

噪声添加

适用的文件格式：纯音频，60s内采样率16k的wav音频文件。
算子说明：给音频添加噪声
各参数说明：
噪声类型：添加的噪声类型，混合噪声为高斯噪声与椒盐噪声的叠加

信噪比: 正常声音信号强度与噪声信号强度的比值

噪声抑制

适用的文件格式：纯音频，30s内采样率16k、位深16bit单通道的wav音频文件。
算子说明：移除音频中的纯噪声片段并进行降噪。
参数配置样例：
不需要配置参数。

音调变化

适用的文件格式：纯音频，60s内的音频文件。
算子说明：调整原始音频的音调
各参数说明：
音调：音调参数

混响减少

适用的文件格式：纯音频，60s内采样率16k的wav音频文件。
算子说明：减少声音在空间中的混响效果，提高语音可懂度。
参数配置样例：
不需要配置参数

语音匿名化

适用的文件格式：纯音频，30s内采样率16k、位深16bit单通道的wav音频文件。
算子说明：对音频进行匿名化处理，匿名化后的音频与原始说话人音色和声纹有明显区分度。
参数配置样例：
不需要配置参数

语音降噪

适用的文件格式：纯音频，采样率16k、位深16bit单通道的wav音频文件。
算子说明：对原始音频进行降噪，且只考虑噪声与人声叠加的情况，对于纯噪声音频或者纯噪声片段，不做约束。
参数配置样例：
不需要配置参数

语速调整

适用的文件格式：纯音频，60s内的wav音频文件。
算子说明：调整音频中的说话速度。
各参数说明：
语速：语速参数，取值在 0.5~2 之间

语音风格转换

适用的文件格式：纯音频，50MB内的音频文件。
算子说明：对原始音频依据给定的目标风格进行转换。
各参数说明：
语音风格：转换后的语音风格

音频量化编码

适用的文件格式：纯音频，100MB内的音频文件。
算子说明：将一个高分辨率的含有头信息的音频文件，通过音频编解码技术、量化压缩技术转换成 16k 采样率 alaw/ulaw/pcm/wav 文件。
参数配置样例：
不需要配置参数

语音语种识别标注

适用的文件格式：纯音频，60s内采样率16k、位深16bit的wav音频文件。
算子说明：识别音频中说话人所使用的语种，并给出相应的置信度。
参数配置样例：
不需要配置参数

普通话语音转文本

适用的文件格式：纯音频，60s内的音频文件。
算子说明：将普通话语音快速转化为文本，以丰富人机交互场景。
各参数说明：
标点：识别结果是否添加标点符号

数字转换：是否将语音中的数字识别为阿拉伯数字

是否分词信息：识别结果是否包含分词结果信息

语音情绪识别标注

适用的文件格式：纯音频，60s内采样率16k、位深16bit的wav音频文件。
算子说明：识别输入音频中说话人的情绪。
参数配置样例：
不需要配置参数

语音端点检测

适用的文件格式：纯音频，600s内采样率16k、位深16bit的wav音频文件。
算子说明：检测音频中多段人声各自的起止时间。
参数配置样例：
不需要配置参数

噪声水平评估

适用的文件格式：纯音频，60s内采样率16k、位深16bit的wav音频文件。
算子说明：对含有人声片段的音频进行质量打分。
参数配置样例：
不需要配置参数

静默片段检测

适用的文件格式：纯音频，600s内采样率16k、位深16bit的音频文件。
算子说明：识别音频中的静音片段及置信度，并给出静音片段的占比。
参数配置样例：
不需要配置参数

多说话人语音识别

适用的文件格式：纯音频，1小时内、单通道的音频文件。
算子说明：识别音频内容，返回每个说话人说话的起止时间及对应内容。
各参数说明：
标点：识别结果是否添加标点符号

数字转换：是否将语音中的数字识别为阿拉伯数字

分词信息：识别结果是否包含分词结果信息

话者分离：识别结果是否包含说话人信息

语速：识别结果是否包含说话人语速信息

个人隐私对话识别

适用的文件格式：纯音频，60s内的音频文件。
算子说明：给个人隐私语音内容打标签。
参数配置样例：
不需要配置参数

违禁语音检测算子

适用的文件格式：纯音频，60s内的音频文件。
算子说明：给违禁语音内容打标签。
参数配置样例：
不需要配置参数

政治敏感语音识别

适用的文件格式：纯音频，60s内的音频文件。
算子说明：给政治敏感语音内容打标签。
参数配置样例：
不需要配置参数

色情语音内容检测算子

适用的文件格式：纯音频，60s内的音频文件。
算子说明：给色情语音内容打标签。
参数配置样例：
不需要配置参数

父主题： 系统预置加工算子介绍

上一篇：气象类加工算子介绍

下一篇：自定义数据集加工算子

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消