语音交互服务 SIS
语音交互服务 SIS
- 最新动态
- 服务公告
- 产品介绍
- 快速入门
- 用户指南
- SDK参考
- API参考
-
常见问题
- 产品咨询类
- 计费类
-
API使用类
- 如何查看接口调用量
- 为什么WebSocket一直连接不成功
- 为什么会出现识别结果非常差的情况
- 如何使用Websocket调用实时语音识别
- 有哪些途径可以使用语音交互的API
- 返回状态正常,但识别结果为空
- Token消息体中user name,domain name和project name分别指的是什么
- 如何调整并发
- 为什么录音文件识别出现重复转写结果
- 调用语音交互的API显示auth failed
- 调用语音交互的API超时怎么处理(connect timeout)
- 为什么服务端返回OBS链接不可用(data url is unreachable)
- 语音合成的base64编码如何使用
- 录音文件识别多久可以返回结果
- 语音合成能不能支持返回立体音(双声道)格式的音频
- 如何解决“The silence time is too long, and the audio will not be recognized”报错
- Token怎么获取
- 如何申请公测
- 如何修改发音人
- 实时语音识别多人同时使用,如何区分各自识别结果
- 使用HTML5 Websocket API发送websocket请求如何携带token
- 如何查看实时语音识别的中间结果
- SDK使用类
- 错误码类
- 部署类
- 区域与可用区
- 权限类
- 服务声明类
- 文档下载
- 通用参考
本文导读
展开导读
链接复制成功!
实时语音识别工作流程
实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。
- 开始阶段需要发送开始指令,包含采样率,音频格式,是否返回中间结果等配置信息。服务端会返回一个开始响应。
- 发送音频阶段客户端会分片发送音频数据,服务会返回识别结果或者其他事件,如音频超时,静音部分过长等。
- 音频发送结束后,客户端会发送结束请求,服务端会返回end响应。
- 实时语音识别必须客户端要主动断开连接。当服务端超过20s没有收到客户的任何数据时,会返回error事件,并主动断开。
图1 工作流程
父主题: 实时语音识别请求