更新时间:2024-03-14 GMT+08:00
分享

实时语音识别工作流程

实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。

  • 开始阶段需要发送开始指令,包含采样率,音频格式,是否返回中间结果等配置信息。服务端会返回一个开始响应。
  • 发送音频阶段客户端会分片发送音频数据,服务会返回识别结果或者其他事件,如音频超时,静音部分过长等。
  • 音频发送结束后,客户端会发送结束请求,服务端会返回end响应。
  • 实时语音识别必须客户端要主动断开连接。当服务端超过20s没有收到客户的任何数据时,会返回error事件,并主动断开。
    图1 工作流程

相关文档