http接口 - RecognizeShortAudio

功能介绍

一句话识别接口，用于短语音的同步识别。一次性上传1min以内音频，能快速返回识别结果。

URI

POST /v1/{project_id}/asr/short-audio

表1 路径参数
参数	是否必选	参数类型	描述
project_id	是	String	项目编号。获取方法，请参见获取项目ID。

请求参数

表2 请求Header参数
参数	是否必选	参数类型	描述
X-Auth-Token	是	String	用户Token。用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。

表3 请求Body参数
参数	是否必选	参数类型	描述
config	是	Config object	配置信息。
data	是	String	语音数据，Base64编码，要求Base64编码后大小不超过4M，音频时长不超过1分钟。Base64编码示例如/+MgxAAUeHpMAUkQAANhuRAC...，如果携带data:audio/mp3;base64,类前缀，会产生报错。

表4 Config
参数	是否必选	参数类型	描述
audio_format	是	String	支持语音的格式，请参考表 audio_format取值范围。
property	是	String	所使用的模型特征串，通常是 “语种_采样率_领域”的形式，采样率需要与音频采样率保持一致，取值范围请参考表 property取值范围。
add_punc	否	String	表示是否在识别结果中添加标点，取值为“yes”和“no”，默认为“no”。目前仅支持中英语种的标点。
digit_norm	否	String	表示是否将语音中的数字识别为阿拉伯数字，取值为“yes” 和 “no”，默认为“yes”。目前暂时仅支持中文。
vocabulary_id	否	String	热词表id，不使用则不填写。
need_word_info	否	String	表示是否在识别结果中输出分词结果信息，取值为“yes”和“no”，默认为“no”。
auto_language_detect	否	String	表示是否开启中英阿自动识别，取值为“yes”和“no”，默认为“no”。如果开启此开关，且传入音频时长不低于1.5秒，后端服务会依据用户的输入音频自动选择对应语种的模型（property）进行识别。注意，当用户的语音过于嘈杂时，语种的判定可能会不准确，所以用户如果已经明确所属语种/方言，不建议打开此开关。

表5 audio_format取值范围
audio_format取值	描述
pcm16k16bit	16k16bit单通道录音数据。
pcm8k16bit	8k16bit单通道录音数据。
ulaw16k8bit	16k8bit ulaw单通道录音数据。
ulaw8k8bit	8k8bit ulaw单通道录音数据。
alaw16k8bit	16k8bit alaw单通道录音数据。
alaw8k8bit	8k8bit alaw单通道录音数据。
mp3	mp3格式音频。目前仅支持单通道的音频。
aac	aac格式音频。目前仅支持单通道的音频。
wav	带wav封装头的格式，从封装头中自动确定格式，目前仅支持8k/16k采样率、单通道、pcm编码格式。
amr	AMR窄带(8k) 压缩录音数据。目前仅支持单通道的音频。
amrwb	AMR 宽带(16k) 压缩录音数据。目前仅支持单通道的音频。
auto	由引擎自动判断音频数据的格式并解码，支持自动判断amr，flac，m4a，mp3，ogg，webm，wav，aac，ac3，mov，wma、amrwb格式。

表6 property取值范围
property取值	描述
chinese_16k_general	支持采样率为8k/16k的中文普通话语音识别，采用新一代端到端识别算法，识别准确率更高。
arabic_16k_general	支持采样率为16k的阿拉伯语语音识别，支持标准阿拉伯语，埃及方言，沙特方言。暂不支持add_punc, digit_norm，vocabulary_id参数。
english_16k_common	支持采样率为8k/16k的英文语音识别。暂不支持digit_norm参数。
english_8k_common	支持采样率为8k的英文语音识别，此为旧版模型，后期不再维护，建议使用english_16k_common。

响应参数

状态码： 200

表7 响应Body参数
参数	是否必选	参数类型	描述
trace_id	是	String	服务内部的令牌，可用于在日志中追溯具体流程，调用失败无此字段。在某些错误情况下可能没有此令牌字符串。
result	是	Result object	调用成功表示识别结果，调用失败时无此字段。

表8 Result
参数	是否必选	参数类型	描述
text	是	String	调用成功表示识别出的内容。
score	是	Float	调用成功表示识别出的置信度，取值范围：0~1。
word_info	否	Array of WordInfo objects	分词信息列表。分词是指将识别出的文本进一步拆分成单独的词语。

表9 WordInfo
参数	是否必选	参数类型	描述
start_time	否	Integer	起始时间。
end_time	否	Integer	结束时间。
word	否	String	分词。

状态码： 400

**表10** 响应Body参数
参数	参数类型	描述
error_code	String	调用失败时的错误码。调用成功时无此字段。
error_msg	String	调用失败时的错误信息。调用成功时无此字段。

请求示例

“endpoint”即调用API的请求地址，不同服务不同区域的“endpoint”不同，具体请参见终端节点。

上传短音频，快速返回识别结果

POST https://{endpoint}/v1/{project_id}/asr/short-audio

Request Header:
Content-Type: application/json
X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...   

Request body: 
{
  "config":
  {
    "audio_format": "wav",
    "property": "arabic_16k_general",
    "add_punc": "yes",
    "need_word_info": "yes",
    "auto_language_detect": "no"
  },
  "data": "/+MgxAAUeHpMAUkQAANhuRAC..."
}

响应示例

状态码：200

成功响应示例

{
  "trace_id": "567e8537-a89c-13c3-a882-826321939651",
  "result":{
   "text": "Nice to meet you",
    "score": 0.9,
  }
}

状态码：400

失败响应示例

{ 
    "error_code":"SIS.0001", 
    "error_msg":"***" 
}

状态码

状态码请参见状态码。

错误码

错误码请参见错误码。

父主题： 一句话识别

上一篇：一句话识别

下一篇：实时语音合成接口

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试