sis
功能介绍
更新时间:2021/01/26 GMT+08:00
语音交互包括以下子服务:
- 语音识别(Automatic Speech Recognition,ASR):将时长低于1分钟的口述音频转换为文本。
- 定制语音识别(ASR Customization,ASRC):基于深度学习技术,提供针对特定领域(如快递行业)优化的语音识别能力,并可自定义语言模型。
- 实时语音转写(Real-time ASR,RASR):将连续的音频流实时转换成文本,使语音识别更加快速。
- 语音合成(Text To Speech,TTS):将文本转换成逼真的语音。
- 定制语音合成(Text To Speech Customization,TTSC):将文本转换为自然流畅的语音,提供特定领域的语音合成。
语音识别
语音识别服务可以实现1分钟以内、不超过4MB的音频到文字的转换。对于用户上传的完整的录音文件,系统通过处理,生成语音对应文字内容。
ASR优势
定制语音识别
定制语音识别提供了一句话识别,录音文件识别功能。
- 一句话识别:可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字。
- 录音文件识别:对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。
ASRC优势
实时语音转写
实时语音转写服务,用户通过实时访问和调用API获取实时语音转写结果。
- 文本时间戳
- 智能断句
- 中英文混合识别
- 即时输出识别结果
- 自动静音检测
RASR优势
语音合成
语音合成将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。
TTS优势
