开始识别
功能介绍
当wss握手请求收到成功响应后,客户端到服务端的通信协议会升级为Websocket协议。通过Websocket协议,客户端发送开始识别请求,用于配置实时语音识别的配置信息。
请求消息
参数名 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
command |
是 |
String |
表示客户端发送开始识别请求,参数值需设置为START。 |
config |
是 |
Object |
配置信息。结构信息请参见表 config数据结构。 |
参数 |
是否必选 |
参数类型 |
说明 |
---|---|---|---|
audio_format |
是 |
String |
支持语音的格式,请参见表 audio_format取值范围。 |
property |
是 |
String |
所使用的模型特征串。通常是 “语种_采样率_领域”的形式,例如chinese_8k_common。请参见表 property取值范围。 |
add_punc |
否 |
String |
表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 |
digit_norm |
否 |
String |
表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。 |
vad_head |
否 |
Integer |
一段音频的开头,当它的静音持续时间大于等于此值时,在实时语音识别单句模式下将返回“长时间静音”事件并结束识别,在连续模式下将会断句并继续下一句的识别。 如果设置为0,表示不检测“长时间静音”情况。 取值范围:[0, 60000]的整数,单位为ms,默认为10000ms,即10s。 |
vad_tail |
否 |
Integer |
音频的结尾中的静音时间,正常情况下不应设成很小的值。 如果检测语音结尾的静音时长大于等于此值时,在实时语音识别单句模式下将返回VOICE_END(识别结果非空)或EXCEEDED_SILENCE(识别结果为空)事件并结束识别,在连续模式下将会断句并继续下一句的识别。 取值范围:[0, 3000]的整数,单位为ms,默认为500ms。 注意:vad_tail若设置过小(<200ms),会导致断句过于频繁,影响识别结果。 |
max_seconds |
否 |
Integer |
一句话的最大时长。如果检测到语音持续时间大于等于此值时,在实时语音识别单句模式下将返回VOICE_END(识别结果非空)或EXCEEDED_SILENCE(识别结果为空)事件并结束识别,在连续模式下将会断句并继续下一句的识别。 取值范围:[1, 60]的整数,单位为s,默认为30s。 |
interim_results |
否 |
String |
是否输出中间结果,可以为yes或no。默认为no,表示不输出中间结果。 |
vocabulary_id |
否 |
String |
热词表id,不使用热词则不填写。 创建热词表信息请参考创建热词表。 |
need_word_info |
否 |
String |
表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。 |
property取值 |
说明 |
---|---|
chinese_8k_general |
支持采样率为8k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 区域支持cn-east-3和cn-north-4(强烈推荐使用)。不支持max_seconds参数,自动通过静音判断一句话结束与否。 |
chinese_16k_general |
支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 区域支持cn-east-3和cn-north-4(强烈推荐使用)。不支持max_seconds参数,自动通过静音判断一句话结束与否。 |
english_16k_general |
支持采样率为16k的英语语音识别,采用新一代端到端识别算法,识别准确率更高。区域仅支持cn-north-4,不支持数字归一化(digit_norm参数、vocabulary_id参数)。不支持max_seconds参数,自动通过静音判断一句话结束与否。 |
sichuan_16k_common |
支持采样率为16k的中文普通话与四川话方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。 |
cantonese_16k_common |
支持采样率为16k的粤语方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。 |
shanghai_16k_common |
支持采样率为16k的上海话方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。 |
chinese_16k_court |
支持采样率为16k的庭审会议语音识别。区域仅支持cn-north-4,不支持need_word_info参数。 |
chinese_16k_it |
支持采样率为16k的IT会议语音识别。区域仅支持cn-north-4。 |
chinese_8k_common |
支持采样率为8k的中文普通话语音识别。 |
chinese_16k_common |
支持采样率为16k的中文普通话语音识别。 |
audio_format取值 |
说明 |
---|---|
pcm16k16bit |
16k16bit单通道录音数据。 |
pcm8k16bit |
8k16bit单通道录音数据。 |
ulaw16k8bit |
16k8bit ulaw单通道录音数据。 |
ulaw8k8bit |
8k8bit ulaw单通道录音数据。 |
alaw16k8bit |
16k8bit alaw单通道录音数据。 |
alaw8k8bit |
8k8bit alaw单通道录音数据。 |
目前仅支持裸音频格式,仅支持pcm编码的wav格式,不支其他wav头或者arm格式的编码。
示例
{ "command": "START", "config": { "audio_format": "ulaw8k8bit", "property": "chinese_8k_common", "add_punc": "yes", "vad_tail": 400, "interim_results": "yes", "need_word_info": "yes" } }
状态码
状态码请参见状态码。
错误码
错误码请参见错误码。