http接口
功能介绍
一句话识别接口,用于短语音的同步识别。一次性上传1min以内音频,能快速返回识别结果。
URI
POST /v1/{project_id}/asr/short-audio
| 
        参数  | 
      
        是否必选  | 
      
        参数类型  | 
      
        描述  | 
     
|---|---|---|---|
| 
        project_id  | 
      
        是  | 
      
        String  | 
      
        项目编号。获取方法,请参见获取项目ID。  | 
     
请求参数
| 
        参数  | 
      
        是否必选  | 
      
        参数类型  | 
      
        描述  | 
     
|---|---|---|---|
| 
        X-Auth-Token  | 
      
        是  | 
      
        String  | 
      
        用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。  | 
     
| 
        参数  | 
      
        是否必选  | 
      
        参数类型  | 
      
        描述  | 
     
|---|---|---|---|
| 
        config  | 
      
        是  | 
      
        Config object  | 
      
        配置信息。  | 
     
| 
        data  | 
      
        是  | 
      
        String  | 
      
        语音数据,Base64编码,要求Base64编码后大小不超过4M,音频时长不超过1分钟。Base64编码示例如/+MgxAAUeHpMAUkQAANhuRAC...,如果携带data:audio/mp3;base64,类前缀,会产生报错。  | 
     
| 
        参数  | 
      
        是否必选  | 
      
        参数类型  | 
      
        描述  | 
     
|---|---|---|---|
| 
        audio_format  | 
      
        是  | 
      
        String  | 
      
        支持语音的格式,请参考表 audio_format取值范围。  | 
     
| 
        property  | 
      
        是  | 
      
        String  | 
      
        所使用的模型特征串,通常是 “语种_采样率_领域”的形式,采样率需要与音频采样率保持一致,取值范围请参考表 property取值范围。  | 
     
| 
        add_punc  | 
      
        否  | 
      
        String  | 
      
        表示是否在识别结果中添加标点,取值为“yes”和“no”,默认为“no”。  | 
     
| 
        digit_norm  | 
      
        否  | 
      
        String  | 
      
        表示是否将语音中的数字识别为阿拉伯数字,取值为“yes” 和 “no”,默认为“yes”。  | 
     
| 
        vocabulary_id  | 
      
        否  | 
      
        String  | 
      
        热词表id,不使用则不填写。国际站暂不支持该参数。  | 
     
| 
        need_word_info  | 
      
        否  | 
      
        String  | 
      
        表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。  | 
     
| 
        audio_format取值  | 
      
        描述  | 
     
|---|---|
| 
        pcm16k16bit  | 
      
        16k16bit单通道录音数据。  | 
     
| 
        pcm8k16bit  | 
      
        8k16bit单通道录音数据。  | 
     
| 
        ulaw16k8bit  | 
      
        16k8bit ulaw单通道录音数据。  | 
     
| 
        ulaw8k8bit  | 
      
        8k8bit ulaw单通道录音数据。  | 
     
| 
        alaw16k8bit  | 
      
        16k8bit alaw单通道录音数据。  | 
     
| 
        alaw8k8bit  | 
      
        8k8bit alaw单通道录音数据。  | 
     
| 
        mp3  | 
      
        mp3格式音频。目前仅支持单通道的音频。  | 
     
| 
        aac  | 
      
        aac格式音频。目前仅支持单通道的音频。  | 
     
| 
        wav  | 
      
        带wav封装头的格式,从封装头中自动确定格式,目前仅支持8k/16k采样率、单通道、pcm编码格式。  | 
     
| 
        amr  | 
      
        AMR窄带(8k) 压缩录音数据。目前仅支持单通道的音频。  | 
     
| 
        amrwb  | 
      
        AMR 宽带(16k) 压缩录音数据。目前仅支持单通道的音频。  | 
     
| 
        auto  | 
      
        由引擎自动判断音频数据的格式并解码,支持自动判断amr,flac,m4a,mp3,ogg,webm,wav,aac,ac3,mov,wma、amrwb格式。  | 
     
| 
        property取值  | 
      
        描述  | 
     
|---|---|
| 
        chinese_16k_general  | 
      
        支持采样率为8k/16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。  | 
     
| 
        arabic_16k_general  | 
      
        支持采样率为16k的阿拉伯语语音识别,支持标准阿拉伯语,埃及方言,沙特方言。暂不支持add_punc, digit_norm,vocabulary_id参数。  | 
     
| 
        english_16k_common  | 
      
        支持采样率为8k/16k的英文语音识别。暂不支持digit_norm参数。  | 
     
| 
        english_8k_common  | 
      
        支持采样率为8k的英文语音识别,此为旧版模型,后期不再维护,建议使用english_16k_common。  | 
     
响应参数
状态码: 200
| 
        参数  | 
      
        是否必选  | 
      
        参数类型  | 
      
        描述  | 
     
|---|---|---|---|
| 
        trace_id  | 
      
        是  | 
      
        String  | 
      
        服务内部的令牌,可用于在日志中追溯具体流程,调用失败无此字段。 在某些错误情况下可能没有此令牌字符串。  | 
     
| 
        result  | 
      
        是  | 
      
        Result object  | 
      
        调用成功表示识别结果,调用失败时无此字段。  | 
     
| 
        参数  | 
      
        是否必选  | 
      
        参数类型  | 
      
        描述  | 
     
|---|---|---|---|
| 
        text  | 
      
        是  | 
      
        String  | 
      
        调用成功表示识别出的内容。  | 
     
| 
        score  | 
      
        是  | 
      
        Float  | 
      
        调用成功表示识别出的置信度,取值范围:0~1。  | 
     
| 
        word_info  | 
      
        否  | 
      
        Array of WordInfo objects  | 
      
        分词信息列表。 分词是指将识别出的文本进一步拆分成单独的词语。  | 
     
状态码: 400
| 
        参数  | 
      
        参数类型  | 
      
        描述  | 
     
|---|---|---|
| 
        error_code  | 
      
        String  | 
      
        调用失败时的错误码。 调用成功时无此字段。  | 
     
| 
        error_msg  | 
      
        String  | 
      
        调用失败时的错误信息。 调用成功时无此字段。  | 
     
请求示例
- 上传短音频,快速返回识别结果
    
POST https://{endpoint}/v1/{project_id}/asr/short-audio Request Header: Content-Type: application/json X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request body: { "config": { "audio_format": "wav", "property": "arabic_16k_general", "add_punc": "yes", "need_word_info": "yes" }, "data": "/+MgxAAUeHpMAUkQAANhuRAC..." } 
响应示例
状态码:200
成功响应示例
{
  "trace_id": "567e8537-a89c-13c3-a882-826321939651",
  "result":{
   "text": "Nice to meet you",
    "score": 0.9,
  }
}
  状态码:400
失败响应示例
{ 
    "error_code":"SIS.0001", 
    "error_msg":"***" 
}
 状态码
状态码请参见状态码。
错误码
错误码请参见错误码。
    
      