更新时间:2024-09-24 GMT+08:00
分享

开始识别

功能介绍

当wss握手请求收到成功响应后,客户端到服务端的通信协议会升级为Websocket协议。通过Websocket协议,客户端发送开始识别请求,用于配置实时语音识别的配置信息。

请求消息

表1 参数说明

参数名

是否必选

参数类型

说明

command

String

表示客户端发送开始识别请求,参数值需设置为START。

config

Object

配置信息。结构信息请参见表 config数据结构

表2 config数据结构

参数

是否必选

参数类型

说明

audio_format

String

支持语音的格式,请参见表 audio_format取值范围

property

String

所使用的模型特征串。通常是 “语种_采样率_领域”的形式,例如chinese_8k_common。请参见表 property取值范围

add_punc

String

表示是否在识别结果中添加标点,取值为yes 、 no,默认no。

digit_norm

String

表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。

vad_head

Integer

一段音频的开头,当它的静音持续时间大于等于此值时,在实时语音识别单句模式下将返回“长时间静音”事件并结束识别,在连续模式下将会断句并继续下一句的识别。

如果设置为0,表示不检测“长时间静音”情况。

取值范围:[0, 60000]的整数,单位为ms,默认为10000ms,即10s。

vad_tail

Integer

音频的结尾中的静音时间,正常情况下不应设成很小的值。

如果检测语音结尾的静音时长大于等于此值时,在实时语音识别单句模式下将返回VOICE_END(识别结果非空)或EXCEEDED_SILENCE(识别结果为空)事件并结束识别,在连续模式下将会断句并继续下一句的识别。

取值范围:[0, 3000]的整数,单位为ms,默认为500ms。

注意:vad_tail若设置过小(<200ms),会导致断句过于频繁,影响识别结果。

max_seconds

Integer

一句话的最大时长。如果检测到语音持续时间大于等于此值时,在实时语音识别单句模式下将返回VOICE_END(识别结果非空)或EXCEEDED_SILENCE(识别结果为空)事件并结束识别,在连续模式下将会断句并继续下一句的识别。

取值范围:[1, 60]的整数,单位为s,默认为30s。

interim_results

String

是否输出中间结果,可以为yes或no。默认为no,表示不输出中间结果。

vocabulary_id

String

热词表id,不使用热词则不填写。

创建热词表信息请参考创建热词表

need_word_info

String

表示是否在识别结果中输出分词结果信息,取值为“yes”“no”,默认为“no”

表3 property取值范围

property取值

说明

chinese_8k_general

支持采样率为8k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。

区域支持cn-east-3和cn-north-4(强烈推荐使用)。不支持max_seconds参数,自动通过静音判断一句话结束与否。

chinese_16k_general

支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。

区域支持cn-east-3和cn-north-4(强烈推荐使用)。不支持max_seconds参数,自动通过静音判断一句话结束与否。

english_16k_general

支持采样率为16k的英语语音识别,采用新一代端到端识别算法,识别准确率更高。区域仅支持cn-north-4,不支持数字归一化(digit_norm参数、vocabulary_id参数。不支持max_seconds参数,自动通过静音判断一句话结束与否。

sichuan_16k_common

支持采样率为16k的中文普通话与四川话方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。

cantonese_16k_common

支持采样率为16k的粤语方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。

shanghai_16k_common

支持采样率为16k的上海话方言语音识别。区域仅支持cn-north-4。不支持digit_norm参数、vocabulary_id参数。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。

chinese_16k_court

支持采样率为16k的庭审会议语音识别。区域仅支持cn-north-4,不支持need_word_info参数。

chinese_16k_it

支持采样率为16k的IT会议语音识别。区域仅支持cn-north-4。

chinese_8k_common

支持采样率为8k的中文普通话语音识别。

chinese_16k_common

支持采样率为16k的中文普通话语音识别。

表4 audio_format取值范围

audio_format取值

说明

pcm16k16bit

16k16bit单通道录音数据。

pcm8k16bit

8k16bit单通道录音数据。

ulaw16k8bit

16k8bit ulaw单通道录音数据。

ulaw8k8bit

8k8bit ulaw单通道录音数据。

alaw16k8bit

16k8bit alaw单通道录音数据。

alaw8k8bit

8k8bit alaw单通道录音数据。

目前仅支持裸音频格式,仅支持pcm编码的wav格式,不支其他wav头或者arm格式的编码。

示例

{
  "command": "START",
  "config":
  {
    "audio_format": "ulaw8k8bit",
    "property": "chinese_8k_common",
    "add_punc": "yes",
    "vad_tail": 400,
    "interim_results": "yes",
    "need_word_info": "yes"
  }
}

状态码

状态码请参见状态码

错误码

错误码请参见错误码

相关文档