文档首页/ 语音交互服务 SIS/ API参考/ 录音文件识别极速版接口
更新时间:2024-05-08 GMT+08:00
分享

录音文件识别极速版接口

功能介绍

录音文件识别极速版接口,用于录音文件的同步识别。音频需要上传华为云OBS,提供华为云OBS对象地址,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST /v1/{project_id}/asr/flash

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

项目编号。获取方法,请参见获取项目ID

表2 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

用户Token。

用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。

Enterprise-Project-Id

String

企业项目ID。SIS支持通过企业项目管理(EPS)对不同用户组和用户的资源使用,进行分账。

获取方法:进入“企业项目管理”页面,单击企业项目名称,在企业项目详情页获取Enterprise-Project-Id(企业项目ID)。

企业项目创建步骤请参见用户指南。

说明:

账户创建企业项目后,在传参时,有以下三类场景。

  • 携带正确的ID,正常使用SIS服务,账单归到企业ID对应的企业项目中。
  • 携带错误的ID,正常使用SIS服务,账单的企业项目会被分类为“default”。
  • 不携带ID,正常使用SIS服务,账单的企业项目会被分类为“default”。

表3 Query参数

参数

是否必选

参数类型

描述

audio_format

String

支持语音的格式,请参考表 audio_format取值范围

property

String

所使用的模型特征串,通常是 “语种_采样率_领域”的形式,采样率需要与音频采样率保持一致,取值范围请参考表 property取值范围

obs_bucket_name

String

表示在OBS对象桶名,使用前请先授权配置请参见配置OBS访问权限。obs_bucket_name字符长度区间为[3,64),需要进行urlencode编码。

OBS桶区域需要与接口的地址区域一致。

示例:

obs url为https://sis-audio-cn4.obs.cn-north-4.myhuaweicloud.com/abc/16k_pcm.wav

则obs_bucket_name值为sis-audio-cn4,obs_object_key值为abc/16k_pcm.wav。如果上传至OBS桶中的文件或OBS路径为中文,obs_object_key的值需要采用中文形式。

obs_object_key

String

表示OBS对象桶中的对象的键值,长度小于1024个字符,需要进行urlencode编码。

OBS桶区域需要与接口的地址区域一致。

示例:

obs url为https://sis-audio-cn4.obs.cn-north-4.myhuaweicloud.com/abc/16k_pcm.wav

则obs_bucket_name=sis-audio-cn4,obs_object_key=abc/16k_pcm.wav

add_punc

String

表示是否在识别结果中添加标点,取值为“yes”“no”,默认为“no”

digit_norm

String

表示是否将语音中的数字识别为阿拉伯数字,取值为“yes”“no”,默认为“yes”

need_word_info

String

表示是否在识别结果中输出分词结果信息,取值为“yes”“no”,默认为“no”

first_channel_only

String

表示是否在识别中只识别首个声道的音频数据,取值为“yes”“no”,默认为“no”

说明:

如果音频数据为多声道,参数取默认值no时,会叠加计费。例如,双声道收费为双倍。

表4 audio_format取值范围

audio_format取值

描述

wav

wav格式音频。

mp3

mp3格式音频。

m4a

m4a格式音频。

acc

acc格式音频。

opus

opus格式音频。

表5 property取值范围

property取值

描述

chinese_8k_common

支持采样率为8k的中文普通话语音识别。

chinese_16k_conversation

支持采样率为16k的会议场景的中文普通话语音识别。

请求参数

表6 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

用户Token。

用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。

响应参数

状态码: 200

表7 响应参数

参数

是否必选

参数类型

描述

trace_id

String

trace_id可用于在日志中追溯具体流程,调用失败无此字段。

在某些错误情况下可能没有此令牌字符串。

audio_duration

Integer

音频时长,单位毫秒。

flash_result

Array of FlashResult objects

调用成功表示识别结果,调用失败时无此字段。

表8 FlashResult

参数

是否必选

参数类型

描述

channel_id

Integer

声道Id。

sentences

Array of Sentences objects

分句信息列表。

表9 Sentences

参数

是否必选

参数类型

描述

start_time

Integer

一句话开始时间,单位毫秒。

result

Result object

分句结果信息。

end_time

Integer

一句话结束时间,单位毫秒。

表10 Result

参数

是否必选

参数类型

描述

text

String

调用成功表示识别出的内容。

score

Double

调用成功表示识别出的置信度(0-1之间)。

word_info

Array of WordInfo objects

分词信息列表。

表11 WordInfo

参数

是否必选

参数类型

描述

start_time

Integer

起始时间。

end_time

Integer

结束时间。

word

String

分词。

状态码: 400

表12 响应Body参数

参数

参数类型

描述

error_code

String

调用失败时的错误码。 调用成功时无此字段。

error_msg

String

调用失败时的错误信息。 调用成功时无此字段。

请求示例

“endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点

  • 快速识别录音文件的音频内容,转写为文字
    POST https://{endpoint}/v1/{project_id}/asr/flash?property=chinese_8k_common&audio_format=wav&add_punc=yes&digit_norm=yes&need_word_info=yes&first_channel_only=yes&vocabulary_id=4c111ee8-fbd6-4a73-941a-9f869c6c56f5&obs_bucket_name=test&obs_object_key=data/0601/test.wav
    Request Header:
    Content-Type: application/json
    X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...   
    

响应示例

状态码:200

成功响应示例

{
    "trace_id": "567e8537-a89c-13c3-a882-826321939xxx",
    "audio_duration": 1010,
    "flash_result": [
        {
            "channel_id": 0,
            "sentences": [
                {
                    "start_time": 550,
                    "end_time": 900,
                    "result": {
                        "text": "北京",
                        "score": 0.831,
                        "word_info": [
                            {
                                "word": "北",
                                "start_time": 560,
                                "end_time": 720
                            },
                            {
                                "word": "京",
                                "start_time": 730,
                                "end_time": 890
                            }
                        ]
                    }
                }
            ]
        }
    ]
}

状态码:400

失败响应示例

{ 
    "error_code":"SIS.0001", 
    "error_msg":"***" 
}

状态码

状态码请参见状态码

错误码

错误码请参见错误码

相关文档