- 最新动态
- 服务公告
- 产品介绍
- 快速入门
- 用户指南
- SDK参考
- API参考
-
常见问题
- 产品咨询类
- 计费类
-
API使用类
- 如何查看接口调用量
- 为什么WebSocket一直连接不成功
- 为什么会出现识别结果非常差的情况
- 如何使用Websocket调用实时语音识别
- 有哪些途径可以使用语音交互的API
- 返回状态正常,但识别结果为空
- Token消息体中user name,domain name和project name分别指的是什么
- 如何调整并发
- 为什么录音文件识别出现重复转写结果
- 调用语音交互的API显示auth failed
- 调用语音交互的API超时怎么处理(connect timeout)
- 为什么服务端返回OBS链接不可用(data url is unreachable)
- 语音合成的base64编码如何使用
- 录音文件识别多久可以返回结果
- 语音合成能不能支持返回立体音(双声道)格式的音频
- 如何解决“The silence time is too long, and the audio will not be recognized”报错
- Token怎么获取
- 如何申请公测
- 如何修改发音人
- 实时语音识别多人同时使用,如何区分各自识别结果
- 使用HTML5 Websocket API发送websocket请求如何携带token
- 如何查看实时语音识别的中间结果
- SDK使用类
- 错误码类
- 部署类
- 区域与可用区
- 权限类
- 服务声明类
- 文档下载
- 通用参考
链接复制成功!
开始识别
功能介绍
当wss握手请求收到成功响应后,客户端到服务端的通信协议会升级为Websocket协议。通过Websocket协议,客户端发送开始识别请求,用于配置实时语音识别的配置信息。
请求消息
参数名 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
command |
是 |
String |
表示客户端发送开始识别请求,参数值需设置为START。 |
config |
是 |
Object |
配置信息。结构信息请参见表 config数据结构。 |
参数 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
audio_format |
是 |
String |
支持语音的格式,请参见表 audio_format取值范围。 |
property |
是 |
String |
所使用的模型特征串。通常是 “语种_采样率_领域”的形式,例如chinese_8k_common。请参见表 property取值范围。 |
add_punc |
否 |
String |
表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 |
digit_norm |
否 |
String |
表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。 |
vad_head |
否 |
Integer |
一段音频的开头,当它的静音持续时间大于等于此值时,在实时语音识别单句模式下将返回“长时间静音”事件并结束识别,在连续模式下将会断句并继续下一句的识别。 如果设置为0,表示不检测“长时间静音”情况。 取值范围:[0, 60000]的整数,单位为ms,默认为10000ms,即10s。 |
vad_tail |
否 |
Integer |
音频的结尾中的静音时间,正常情况下不应设成很小的值。 如果检测语音结尾的静音时长大于等于此值时,在实时语音识别单句模式下将返回VOICE_END(识别结果非空)或EXCEEDED_SILENCE(识别结果为空)事件并结束识别,在连续模式下将会断句并继续下一句的识别。 取值范围:[0, 3000]的整数,单位为ms,默认为500ms。 注意:vad_tail若设置过小(<200ms),会导致断句过于频繁,影响识别结果。 |
max_seconds |
否 |
Integer |
一句话的最大时长。如果检测到语音持续时间大于等于此值时,在实时语音识别单句模式下将返回VOICE_END(识别结果非空)或EXCEEDED_SILENCE(识别结果为空)事件并结束识别,在连续模式下将会断句并继续下一句的识别。 取值范围:[1, 60]的整数,单位为s,默认为30s。 |
interim_results |
否 |
String |
是否输出中间结果,可以为yes或no。默认为no,表示不输出中间结果。 |
vocabulary_id |
否 |
String |
热词表id,不使用热词则不填写。 创建热词表信息请参考创建热词表。 |
need_word_info |
否 |
String |
表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。 |
property取值 |
说明 |
---|---|
chinese_8k_general |
支持采样率为8k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 区域支持cn-east-3和cn-north-4(强烈推荐使用)。 |
chinese_16k_general |
支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 区域支持cn-east-3和cn-north-4(强烈推荐使用)。 |
english_16k_general |
支持采样率为16k的英语语音识别,采用新一代端到端识别算法,识别准确率更高。区域仅支持cn-north-4,不支持数字归一化(digit_norm参数、vocabulary_id参数)。 |
arabic_16k_general |
支持采样率为16k的阿拉伯语语音识别,采用新一代端到端识别算法,兼容标准阿拉伯语、埃及方言、沙特方言、阿联酋方言。区域仅支持cn-north-4,不支持标点预测(add_punc参数)、数字归一化(digit_norm参数)和热词(vocabulary_id参数)功能。 |
sichuan_16k_common |
支持采样率为16k的中文普通话与四川话方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。 |
cantonese_16k_common |
支持采样率为16k的粤语方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。 |
shanghai_16k_common |
支持采样率为16k的上海话方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。 |
chinese_16k_court |
支持采样率为16k的庭审会议语音识别。区域仅支持cn-north-4,不支持need_word_info参数。 |
chinese_16k_it |
支持采样率为16k的IT会议语音识别。区域仅支持cn-north-4。 |
chinese_8k_common |
支持采样率为8k的中文普通话语音识别。 |
chinese_16k_common |
支持采样率为16k的中文普通话语音识别。 |
audio_format取值 |
说明 |
---|---|
pcm16k16bit |
16k16bit单通道录音数据。 |
pcm8k16bit |
8k16bit单通道录音数据。 |
ulaw16k8bit |
16k8bit ulaw单通道录音数据。 |
ulaw8k8bit |
8k8bit ulaw单通道录音数据。 |
alaw16k8bit |
16k8bit alaw单通道录音数据。 |
alaw8k8bit |
8k8bit alaw单通道录音数据。 |
目前仅支持裸音频格式,仅支持pcm编码的wav格式,不支其他wav头或者arm格式的编码。
示例
{ "command": "START", "config": { "audio_format": "ulaw8k8bit", "property": "chinese_8k_common", "add_punc": "yes", "vad_tail": 400, "interim_results": "yes", "need_word_info": "yes" } }
状态码
状态码请参见状态码。
错误码
错误码请参见错误码。