开始识别

功能介绍

当wss握手请求收到成功响应后，客户端到服务端的通信协议会升级为WebSocket协议。通过WebSocket协议，客户端发送开始识别请求，用于配置实时语音识别的配置信息。

请求消息

表1 参数说明
参数名	是否必选	参数类型	说明
command	是	String	表示客户端发送开始识别请求，参数值需设置为START。
config	是	Object	配置信息。结构信息请参见表 config数据结构。

表2 config数据结构
参数	是否必选	参数类型	说明
audio_format	是	String	支持语音的格式，请参见表 audio_format取值范围。
property	是	String	所使用的模型特征串。通常是 “语种_采样率_领域”的形式，例如chinese_8k_common。请参见表 property取值范围。
add_punc	否	String	表示是否在识别结果中添加标点，取值为yes 、 no，默认no。
digit_norm	否	String	表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。
vad_head	否	Integer	一段音频的开头，当它的静音持续时间大于等于此值时，在实时语音识别单句模式下将返回“长时间静音”事件（EXCEEDED_SILENCE）并结束识别；在连续模式下将会断句并继续下一句的识别。在流式一句话模式下此参数不生效。如果设置为0，等价于设置为60000。取值范围：[0, 60000]的整数，单位为ms，默认为10000ms，即10s。
vad_tail	否	Integer	音频的结尾中的静音时间，正常情况下不应设成很小的值。如果检测语音结尾的静音时长大于等于此值时，在实时语音识别单句模式下将返回VOICE_END（识别结果非空）或EXCEEDED_SILENCE（识别结果为空）事件并结束识别；在连续模式下将会断句并继续下一句的识别。在流式一句话模式下此参数不生效。取值范围：[0, 3000]的整数，单位为ms，默认为500ms。注意：vad_tail若设置过小（<200ms），会导致断句过于频繁，影响识别结果。
max_seconds	否	Integer	一句话的最大时长。如果检测到语音持续时间大于等于此值时，在实时语音识别单句模式下将返回VOICE_END（识别结果非空）或EXCEEDED_SILENCE（识别结果为空）事件并结束识别，在连续模式下将会断句并继续下一句的识别。在流式一句话模式下此参数不生效。取值范围：[1, 60]的整数，单位为s，默认为30s。
interim_results	否	String	是否输出中间结果，可以为yes或no。默认为no，表示不输出中间结果。
vocabulary_id	否	String	热词表id，不使用热词则不填写。创建热词表信息请参考创建热词表 - CreateVocabulary。
need_word_info	否	String	表示是否在识别结果中输出分词结果信息，取值为“yes”和“no”，默认为“no”。对于中文，是按照字级别进行分词；对于英文是按照子词（BPE）级别进行分词。
need_smooth	否	String	是否需要对识别结果进行顺滑（过滤语气词或者吞吐词），取值为“yes”和“no”。仅支持中文ASR的顺滑。

表3 property取值范围
property取值	说明
chinese_8k_general	支持采样率为8k的中文普通话语音识别，采用新一代端到端识别算法，识别准确率更高。区域支持cn-east-3和cn-north-4。
chinese_16k_general	支持采样率为16k的中文普通话语音识别，采用新一代端到端识别算法，识别准确率更高。区域支持cn-east-3和cn-north-4。
english_16k_general	支持采样率为16k的英语语音识别，采用新一代端到端识别算法，识别准确率更高。区域仅支持cn-north-4，不支持数字归一化（digit_norm参数）。
arabic_16k_general	支持采样率为16k的阿拉伯语语音识别，采用新一代端到端识别算法，兼容标准阿拉伯语、埃及方言、沙特方言、阿联酋方言。区域仅支持cn-north-4，不支持标点预测（add_punc参数）、数字归一化（digit_norm参数）和热词（vocabulary_id参数）功能。
arabic_8k_general	支持采样率为8k的阿拉伯语语音识别，一般用于电话信道场景。区域仅支持cn-north-4，不支持标点预测（add_punc参数）、数字归一化（digit_norm参数）和热词（vocabulary_id参数）功能。
sichuan_16k_common	支持采样率为16k的中文普通话与四川话方言语音识别。区域仅支持cn-north-4。
cantonese_16k_common	支持采样率为16k的粤语方言语音识别。区域仅支持cn-north-4。
shanghai_16k_common	支持采样率为16k的上海话方言语音识别。区域仅支持cn-north-4。
chinese_16k_court	支持采样率为16k的庭审会议语音识别。区域仅支持cn-north-4。
chinese_16k_it	支持采样率为16k的IT会议语音识别。区域仅支持cn-north-4。
chinese_8k_common	支持采样率为8k的中文普通话语音识别，此为旧版模型，建议使用chinese_8k_general。
chinese_16k_common	支持采样率为16k的中文普通话语音识别，此为旧版模型，建议使用chinese_16k_general。

表4 audio_format取值范围
audio_format取值	说明
pcm16k16bit	16k16bit单通道录音数据。
pcm8k16bit	8k16bit单通道录音数据。
ulaw16k8bit	16k8bit ulaw单通道录音数据。
ulaw8k8bit	8k8bit ulaw单通道录音数据。
alaw16k8bit	16k8bit alaw单通道录音数据。
alaw8k8bit	8k8bit alaw单通道录音数据。

目前仅支持裸音频格式，特别是PCM编码的WAV格式，不支持其他WAV头或ARM格式的编码。

示例

{
  "command": "START",
  "config":
  {
    "audio_format": "ulaw8k8bit",
    "property": "chinese_8k_general",
    "add_punc": "yes",
    "vad_tail": 400,
    "interim_results": "yes",
    "need_word_info": "yes"
  }
}