录音文件识别极速版接口
功能介绍
录音文件识别极速版接口,用于录音文件的同步识别。音频需要上传华为云OBS,提供华为云OBS对象地址,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
URI
POST /v1/{project_id}/asr/flash
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
project_id |
是 |
String |
项目编号。获取方法,请参见获取项目ID。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
X-Auth-Token |
是 |
String |
用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 |
Enterprise-Project-Id |
否 |
String |
企业项目ID。SIS支持通过企业项目管理(EPS)对不同用户组和用户的资源使用,进行分账。 获取方法:进入“企业项目管理”页面,单击企业项目名称,在企业项目详情页获取Enterprise-Project-Id(企业项目ID)。
企业项目创建步骤请参见用户指南。
说明:
账户创建企业项目后,在传参时,有以下三类场景。
|
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
audio_format |
是 |
String |
支持语音的格式,请参考表 audio_format取值范围。 |
property |
是 |
String |
所使用的模型特征串,通常是 “语种_采样率_领域”的形式,采样率需要与音频采样率保持一致,取值范围请参考表 property取值范围。 |
obs_bucket_name |
是 |
String |
表示在OBS对象桶名,使用前请先授权配置请参见配置OBS访问权限。obs_bucket_name字符长度区间为[3,64),需要进行urlencode编码。 OBS桶区域需要与接口的地址区域一致。 示例: obs url为https://sis-audio-cn4.obs.cn-north-4.myhuaweicloud.com/abc/16k_pcm.wav 则obs_bucket_name值为sis-audio-cn4,obs_object_key值为abc/16k_pcm.wav。如果上传至OBS桶中的文件或OBS路径为中文,obs_object_key的值需要采用中文形式。 |
obs_object_key |
是 |
String |
表示OBS对象桶中的对象的键值,长度小于1024个字符,需要进行urlencode编码。 OBS桶区域需要与接口的地址区域一致。 示例: obs url为https://sis-audio-cn4.obs.cn-north-4.myhuaweicloud.com/abc/16k_pcm.wav 则obs_bucket_name=sis-audio-cn4,obs_object_key=abc/16k_pcm.wav |
add_punc |
否 |
String |
表示是否在识别结果中添加标点,取值为“yes”和“no”,默认为“no”。 |
digit_norm |
否 |
String |
表示是否将语音中的数字识别为阿拉伯数字,取值为“yes” 和 “no”,默认为“yes”。 |
need_word_info |
否 |
String |
表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。 |
first_channel_only |
否 |
String |
表示是否在识别中只识别首个声道的音频数据,取值为“yes”和“no”,默认为“no”。
说明:
如果音频数据为多声道,参数取默认值no时,会叠加计费。例如,双声道收费为双倍。 |
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
X-Auth-Token |
是 |
String |
用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 |
响应参数
状态码: 200
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
trace_id |
是 |
String |
trace_id可用于在日志中追溯具体流程,调用失败无此字段。 在某些错误情况下可能没有此令牌字符串。 |
audio_duration |
是 |
Integer |
音频时长,单位毫秒。 |
flash_result |
是 |
Array of FlashResult objects |
调用成功表示识别结果,调用失败时无此字段。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
channel_id |
否 |
Integer |
声道Id。 |
sentences |
否 |
Array of Sentences objects |
分句信息列表。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
start_time |
否 |
Integer |
一句话开始时间,单位毫秒。 |
result |
否 |
Result object |
分句结果信息。 |
end_time |
否 |
Integer |
一句话结束时间,单位毫秒。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
text |
是 |
String |
调用成功表示识别出的内容。 |
score |
是 |
Double |
调用成功表示识别出的置信度(0-1之间)。 |
word_info |
否 |
Array of WordInfo objects |
分词信息列表。 |
状态码: 400
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
调用失败时的错误码。 调用成功时无此字段。 |
error_msg |
String |
调用失败时的错误信息。 调用成功时无此字段。 |
请求示例
“endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点。
- 快速识别录音文件的音频内容,转写为文字
POST https://{endpoint}/v1/{project_id}/asr/flash?property=chinese_8k_common&audio_format=wav&add_punc=yes&digit_norm=yes&need_word_info=yes&first_channel_only=yes&vocabulary_id=4c111ee8-fbd6-4a73-941a-9f869c6c56f5&obs_bucket_name=test&obs_object_key=data/0601/test.wav Request Header: Content-Type: application/json X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...
响应示例
状态码:200
成功响应示例
{ "trace_id": "567e8537-a89c-13c3-a882-826321939xxx", "audio_duration": 1010, "flash_result": [ { "channel_id": 0, "sentences": [ { "start_time": 550, "end_time": 900, "result": { "text": "北京", "score": 0.831, "word_info": [ { "word": "北", "start_time": 560, "end_time": 720 }, { "word": "京", "start_time": 730, "end_time": 890 } ] } } ] } ] }
状态码:400
失败响应示例
{ "error_code":"SIS.0001", "error_msg":"***" }
状态码
状态码请参见状态码。
错误码
错误码请参见错误码。