更新时间:2023-11-06 GMT+08:00
分享

功能介绍

实时语音识别

实时语音识别服务,用户通过实时访问和调用API获取实时语音识别结果,支持的语言包含中文普通话、方言和英语,方言当前支持四川话、粤语和上海话。

  • 文本时间戳

    为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频。

  • 智能断句

    通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性。

  • 中英文混合识别

    支持在中文句子识别中夹带英文字母、数字等,从而实现中、英文以及数字的混合识别。

  • 即时输出识别结果

    连续识别语音流内容,即时输出结果,并可根据上下文语言模型自动校正。

  • 自动静音检测

    对输入语音流进行静音检测,识别效率和准确率更高。

产品优势

  • 识别准确率高

    采用最新一代语音识别技术,基于深度神经网络(Deep Neural Networks,简称DNN)技术,大大提高了抗噪性能,使识别准确率显著提升。

  • 识别速度快

    把语言模型、词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处于领先地位。

  • 多种识别模式

    支持多种实时语音识别模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。

  • 定制化服务

    可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。

一句话识别

可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字,支持的语言包含中文普通话、方言以及英语。方言当前支持四川话、粤语和上海话。

产品优势

  • 高识别率

    基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。

  • 前沿技术

    使用工业界成熟的算法,结合学术界最新研究成果,为企业提供独特竞争力优势。

  • 支持热词

    针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。

  • 可定制化

    针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。

录音文件识别

对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。

产品优势

  • 高识别率

    基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。

  • 稳定可靠

    成功应用于各类场景,基于企业客户的长期实践,经受过复杂场景考验。

  • 支持热词

    针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。

  • 可定制化

    针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。

语音合成

语音合成支持多种音色,可调节语调,语速,音量。

产品优势

  • 多语种多音色

    中文普通话、男声、女声、童声自由切换,可以调整音量,语速。

  • 效果出色

    文本转换自然清晰,近乎真人发音,能够符合多样的应用场景。

相关文档