功能介绍

实时语音识别

实时语音识别服务，用户通过实时访问和调用API获取实时语音识别结果，支持的语言包含中文普通话、方言和英语，方言当前支持四川话、粤语和上海话。

文本时间戳
 为音频转换结果生成特定的时间戳，从而通过搜索文本即可快速找到对应的原始音频。
智能断句
 通过提取上下文相关语义特征，并结合语音特征，智能划分断句及添加标点符号，提升输出文本的可阅读性。
中英文混合识别
 支持在中文句子识别中夹带英文字母、数字等，从而实现中、英文以及数字的混合识别。
即时输出识别结果
 连续识别语音流内容，即时输出结果，并可根据上下文语言模型自动校正。
自动静音检测
 对输入语音流进行静音检测，识别效率和准确率更高。

产品优势

识别准确率高
 采用最新一代语音识别技术，基于深度神经网络（Deep Neural Networks，简称DNN）技术，大大提高了抗噪性能，使识别准确率显著提升。
识别速度快
 把语言模型、词典和声学模型统一集成为一个大的神经网络，同时在工程上进行了大量的优化，大幅提升解码速度，使识别速度在业内处于领先地位。
多种识别模式
 支持多种实时语音识别模式，如流式识别、连续识别和实时识别模式，灵活适应不同应用场景。
定制化服务
 可定制特定垂直领域的语言层模型，可识别更多专有词汇和行业术语，进一步提高识别准确率。

一句话识别

可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据，系统经过处理，生成语音对应的文字，支持的语言包含中文普通话、英语、方言以及英语。方言当前支持四川话、粤语和上海话。

产品优势

高识别率
 基于深度学习技术，对特定领域场景的语音识别进行优化，识别率达到业界领先。
前沿技术
 使用工业界成熟的算法，结合学术界最新研究成果，为企业提供独特竞争力优势。
支持热词
 针对专业词汇，支持上传至热词表，增加专业词汇的识别准确率。
可定制化
 针对客户的特定场景需求，定制垂直领域的语音识别模型，识别效果更精确。

录音文件识别

对于录制的长语音进行识别，转写成文字，提供不同领域模型，具备良好的可扩展性，支持热词定制。

产品优势

高识别率
 基于深度学习技术，对特定领域场景的语音识别进行优化，识别率达到业界领先。

稳定可靠
 成功应用于各类场景，基于企业客户的长期实践，经受过复杂场景考验。

支持热词
 针对专业词汇，支持上传至热词表，增加专业词汇的识别准确率。
可定制化
 针对客户的特定场景需求，定制垂直领域的语音识别模型，识别效果更精确。

语音合成

语音合成支持多种音色，可调节语调，语速，音量。

产品优势

多语种多音色
 中文普通话、男声、女声、童声自由切换，可以调整音量，语速。
效果出色
 文本转换自然清晰，近乎真人发音，能够符合多样的应用场景。

上一篇：什么是语音交互服务

下一篇：应用场景

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

功能介绍

实时语音识别

一句话识别

录音文件识别

语音合成

相关文档

意见反馈

文档内容是否对您有帮助？