文档首页> > 产品介绍> 什么是语音交互服务

什么是语音交互服务

分享
更新时间: 2019/07/08 16:02

语音交互是一种人机交互方式,以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户通过实时访问和调用API获取语音交互结果。语音交互包括三个子服务:

  • 语音识别(Automatic Speech Recognition,ASR):将口述音频转换为文本。
  • 语音合成(Text To Speech,TTS):是一种将文本转换成逼真语音的服务。
  • 实时语音转写(Real-time ASR,RASR):将连续的音频流实时转换成文本,语音识别更快。

语音识别

当前语音识别提供了一句话识别,短语音识别和长语音识别功能,一句话识别和短语音识别对时长较短的语音识别速度更快

  • 一句话识别:可以实现1分钟以内音频到文字的转换。对于用户上传二进制数据,系统经过处理,生成语音对应的文字。
  • 短语音识别服务:可以实现1分钟以内、不超过4MB的音频到文字的转换。对于用户上传的完整的录音文件,系统通过处理,生成语音对应文字内容。

ASR优势

  • 效果出众

    使用深度学习技术,语音识别准确率超过95%。

  • 广泛支持

    支持中文普通话的语音识别,满足多种场景下的应用需求。

  • 稳定可靠

    成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。

  • 简单高效

    提供RESTful规范API接口,并提供服务SDK,方便客户使用与集成;帮助客户减少人力成本,节省业务支出。

语音合成

语音合成将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。

TTS优势

  • 效果出众

    使用深度学习技术来合成逼真的人声语音,合成速度快,语音自然流畅。

  • 个性定制

    能够对合成后的语音音色、音调、语速进行个性化的设置,满足客户的定制化需求。

  • 稳定可靠

    成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。

  • 简单高效

    提供RESTful规范API接口,并提供服务SDK,方便客户使用与集成;帮助客户减少人力成本,节省业务支出。

实时语音转写

实时语音转写服务,用户通过实时访问和调用API获取实时语音转写结果。

RASR优势

  • 识别准确率

    采用最新一代语音识别技术,基于DNN(深层神经网络)技术,大大提高了抗噪性能,使识别准确率显著提升。

  • 识别速度快

    把语言模型,词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处领先地位。

  • 多种识别模式

    支持多种实时语音转写模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。

  • 定制化服务

    可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。

RASR功能

  • 文本时间戳

    为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频。

  • 智能断句

    通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性。

  • 中英文混合识别

    支持在中文句子识别中可夹带英文字母、数字等,从而实现中、英文以及数字的混合识别。

  • 即时输出识别结果

    连续识别语音流内容,即时输出结果,并可根据上下文语言模型自动校正。

  • 自动静音检测

    对输入语音流进行静音检测,识别效率和准确率更高。

  • 接入方式灵活

    支持WebSocket和MRCP接口。

如果您喜欢这篇文档,您还可以:

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区