创建热词表
在一句话识别、录音文件识别、实时语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。
热词可以是姓名、公司名、某个领域的专有名词,如人名"王晓茗”(通常会识别为"王小明”)、运输域的“高栏”等。热词不建议太长,也不要有标点符号或者特殊符号。具体限制参见创建热词表更新热词表章节。
功能介绍
新建一个热词表,创建成功返回id。每个用户限制创建100个热词表。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
约束与限制
- 所有含英文的热词均需大写,如:Eiffel铁塔(正确示例为:EIFFEL铁塔)。
- 所有数字均用相应的汉字表示,避免使用阿拉伯数字 ,如:12345服务热线(正确示例为:一二三四五服务热线)。
- 热词内容仅包含英文和中文,避免出现标点符号、特殊字符或空格,如:。,?.*等。
- 尽量避免配置单音节的英文单词,避免误召回,如:MAY/TEE等。
- 使用热词表功能时,同一个项目ID,可以共用热词表,不同的项目ID不能共用热词表。
URI
POST /v1/{project_id}/asr/vocabularies
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
project_id |
是 |
String |
项目编号。获取方法,请参见获取项目ID。 |
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
X-Auth-Token |
是 |
String |
用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
name |
是 |
String |
热词表名,不可重复。内容限制为字母,数字,下中划线和井号,长度不超过32字符。 |
description |
否 |
String |
热词表描述,长度不超过255字符。 |
language |
是 |
String |
热词表语言类型。 language取值:chinese_mandarin,表示汉语普通话。 |
contents |
是 |
Array of String |
支持中英混编热词,单个热词只能由英文字母和unicode编码的汉字组成,不能有其他符号,包括空格。 阿拉伯数字需写成汉字或英文(如“一”、“one”)。 单词库支持热词数上限10000。 中文单个热词长度上限32字符,英文为64字符。 |
响应参数
状态码: 200
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
vocabulary_id |
是 |
String |
调用成功返回热词表ID,调用失败时无此字段 |
状态码: 400
参数 |
参数类型 |
描述 |
---|---|---|
error_code |
String |
调用失败时的错误码。 调用成功时无此字段。 |
error_msg |
String |
调用失败时的错误信息。 调用成功时无此字段。 |
请求示例
“endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点。
POST https://{endpoint}/v1/{project_id}/asr/vocabularies Request Header: Content-Type: application/json X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request Body: { "name": "telepower", "description": "telepower 具体描述", "language": "chinese_mandarin", "contents": ["示例"] }
响应示例
状态码: 200
成功响应示例
{ "vocabulary_id": "CFD08A32-6176-4ad7-92F9-11ED015C8109", }
状态码:400
失败响应示例
{ "error_code":"SIS.0201", "error_msg":"***" }
状态码
状态码请参见状态码。
错误码
错误码请参见错误码。