实时语音识别
实时语音识别服务,用户通过实时访问和调用API获取实时语音识别结果,支持的语言包含中文普通话、方言和英语,方言当前支持四川话、粤语和上海话。
- 文本时间戳
为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频。
- 智能断句
通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性。
- 中英文混合识别
支持在中文句子识别中夹带英文字母、数字等,从而实现中、英文以及数字的混合识别。
- 即时输出识别结果
连续识别语音流内容,即时输出结果,并可根据上下文语言模型自动校正。
- 自动静音检测
对输入语音流进行静音检测,识别效率和准确率更高。
产品优势
- 识别准确率高
采用最新一代语音识别技术,基于深度神经网络(Deep Neural Networks,简称DNN)技术,大大提高了抗噪性能,使识别准确率显著提升。
- 识别速度快
把语言模型、词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处于领先地位。
- 多种识别模式
支持多种实时语音识别模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。
- 定制化服务
可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。
一句话识别
可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字,支持的语言包含中文普通话、方言以及英语。方言当前支持四川话、粤语和上海话。
产品优势
- 高识别率
基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。
- 前沿技术
使用工业界成熟的算法,结合学术界最新研究成果,为企业提供独特竞争力优势。
- 支持热词
针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。
- 可定制化
针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。
录音文件识别
对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。
产品优势
语音合成
语音合成支持多种音色,可调节语调,语速,音量。
产品优势