文档首页> 语音交互服务 SIS> API参考> 录音文件识别极速版接口
更新时间:2022-04-26 GMT+08:00
分享

录音文件识别极速版接口

功能介绍

录音文件识别极速版接口,用于录音文件的同步识别。一次性上传整个音频或者提供华为云OBS对象地址,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。

调试

您可以在API Explorer中调试该接口。

URI

POST /v1/{project_id}/asr/flash

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

项目编号。获取方法,请参见获取项目ID

表2 Query参数

参数

是否必选

参数类型

描述

audio_format

String

支持语音的格式,请参考表 audio_format取值范围

property

String

所使用的模型特征串,通常是 “语种_采样率_领域”的形式,采样率需要与音频采样率保持一致,取值范围请参考表 property取值范围

add_punc

String

表示是否在识别结果中添加标点,取值为“yes”“no”,默认为“no”

digit_norm

String

表示是否将语音中的数字识别为阿拉伯数字,取值为“yes”“no”,默认为“yes”

vocabulary_id

String

热词表id,不使用则不填写。

创建热词表信息请参考创建热词表

need_word_info

String

表示是否在识别结果中输出分词结果信息,取值为“yes”“no”,默认为“no”

first_channel_only

String

表示是否在识别中只识别首个声道的音频数据,取值为“yes”“no”,默认为“no”

obs_bucket_name

String

表示在OBS对象桶名,使用前请先授权配置请参见配置OBS访问权限。obs_bucket_name长度大于等于3个字符,小于64个字符,需要进行urlencode编码

示例

obs url为https://test.obs.cn-north-4.myhuaweicloud.com/data/0601/test.wav

则obs_bucket_name=test,obs_bucket_key=data/0601/test.wav

obs_object_key

String

表示OBS对象桶中的对象的键值,长度小于1024个字符,需要进行urlencode编码,

示例

obs url为https://test.obs.cn-north-4.myhuaweicloud.com/data/0601/test.wav

则obs_bucket_name=test,obs_bucket_key=data/0601/test.wav

表3 audio_format取值范围

audio_format取值

描述

wav

wav格式音频

mp3

mp3格式音频

m4a

m4a格式音频

aac

aac格式音频

opus

ops格式音频。

表4 property取值范围

property取值

描述

chinese_8k_common

支持采样率为8k的中文普通话语音识别。

chinese_16k_conversation

支持采样率为16k的会议场景的中文普通话语音识别。

请求参数

表5 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

用户Token。

Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限,响应消息头中X-Subject-Token的值即为Token。

响应参数

状态码: 200

表6 响应参数

参数

是否必选

参数类型

描述

trace_id

String

可用于在日志中追溯具体流程,调用失败无此字段。

在某些错误情况下可能没有此令牌字符串。

audio_duration

Integer

音频时长,单位毫秒

flash_result

Array of FlashResult objects

调用成功表示识别结果,调用失败时无此字段。

表7 FlashResult

参数

是否必选

参数类型

描述

channel_id

Integer

声道Id

sentences

Array of Sentences objects

分句信息列表

表8 Sentences

参数

是否必选

参数类型

描述

start_time

Integer

一句话开始时间,单位毫秒

result

Result object

分句结果信息

end_time

Integer

一句话结束时间,单位毫秒

表9 Result

参数

是否必选

参数类型

描述

text

String

调用成功表示识别出的内容。

score

Double

调用成功表示识别出的置信度(0-1之间)。

word_info

Array of WordInfo objects

分词信息列表

表10 WordInfo

参数

是否必选

参数类型

描述

start_time

Integer

起始时间

end_time

Integer

结束时间

word

String

分词

状态码: 400

表11 响应Body参数

参数

参数类型

描述

error_code

String

调用失败时的错误码。 调用成功时无此字段。

error_msg

String

调用失败时的错误信息。 调用成功时无此字段。

请求示例

“endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点

  • 请求示例(伪码)
    POST https://{endpoint}/v1/{project_id}/asr/flash?property=chinese_8k_common&audio_format=wav&add_punc=yes&digit_norm=yes&need_word_info=yes&first_channel_only=yes&vocabulary_id=4c111ee8-fbd6-4a73-941a-9f869c6c56f5&obs_bucket_name=test&obs_object_key=data/0601/test.wav
    Request Header:
    Content-Type: application/json
    X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...   
    

响应示例

状态码:200

成功响应示例

{
    "trace_id": "567e8537-a89c-13c3-a882-826321939651",
    "audio_duration": 1310,
    "flash_result": [
        {
            "channel_id": 0,
            "sentences": [
                {
                    "start_time": 560,
                    "end_time": 1320,
                    "result": {
                        "text": "北京你好",
                        "score": 0.831,
                        "word_info": [
                            {
                                "word": "北京",
                                "start_time": 560,
                                "end_time": 890
                            },
                            {
                                "word": "你好",
                                "start_time": 920,
                                "end_time": 1310
                            }
                        ]
                    }
                }
            ]
        }
    ]
}

状态码:400

失败响应示例

{ 
    "error_code":"SIS.0001", 
    "error_msg":"***" 
}

状态码

状态码请参见状态码

错误码

错误码请参见错误码

分享:

    相关文档

    相关产品

close