华为语音识别
华为语言识别连接器基于华为云语音交互服务 SIS服务进行集成开发,包含“一句话识别”、“热词管理”、“录音文件识别”、“语音合成”等执行动作。
连接参数
华为语音识别连接器使用IAM认证,连接参数说明如表1所示。
名称 |
必填 |
说明 |
示例值/默认值 |
---|---|---|---|
连接名称 |
是 |
设置连接名称。 |
华为语音识别的连接 |
描述 |
否 |
对于连接的信息描述说明。 |
description |
租户名 |
是 |
IAM用户所属账号信息。了解账号与IAM用户的关系。 |
domain |
用户名 |
是 |
IAM用户名。 |
name |
密码 |
是 |
IAM用户的登录密码。 |
- |
项目ID |
是 |
系统为用户自动生成的项目ID,单击“我的凭证 > API凭证”,根据项目获取。 |
e9993fc787************a340f9c0f4 |
站点 |
是 |
站点。 |
iam.cn-north-4.myhuaweicloud.com |
一句话识别
用于短语音的同步识别。一次性上传1min以内音频,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。
接口功能及调用方法请参考一句话识别。
- 输入参数
用户配置一句话识别执行动作,相关参数说明如表2所示。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表3。
热词管理
在一句话识别、录音文件识别、实时语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。热词管理功能包括“创建热词表”、“查询热词表列表”、“查询热词表信息”、“更新热词表”和“删除热词表”五个执行动作。
接口功能及调用方法请参考热词管理。
创建热词表
新建一个热词表, 每个用户限制创建10个热词表 。
接口功能及调用方法请参考热词管理。
- 输入参数
用户配置创建热词表执行动作,相关参数说明如表4所示。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表5。
查询热词表列表
查询用户所有热词表列表。
接口功能及调用方法请参考热词管理。
- 输入参数
用户配置查询热词表列表执行动作,相关参数说明如表6所示。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表7。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表9。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表11。
录音文件识别
录音文件识别接口,用于识别长录音文件,录音文件放在OBS(对象存储服务)或公网可访问的服务器上。录音识别包括“提交录音文件识别任务”、“获取录音文件识别结果”、“录音文件识别极速版”三个执行动作。
接口功能及调用方法请参考录音文件识别。
提交录音文件识别任务
录音文件识别接口,用于识别长录音文件,录音文件放在华为云OBS(对象存储服务)上,由于录音文件识别通常会需要较长的时间,因此识别是异步的,也即接口分为创建识别任务和查询任务状态两个接口,创建识别任务接口创建任务完成后返回,然后用户通过调用查询任务状态接口来获得转写状态和结果。
该接口用于提交录音文件识别任务,其中录音文件保存在用户的OBS桶中。用户开通录音识别服务时,需授权录音文件引擎读取用户OBS桶权限。录音时长不超过5小时,文件大小不超过300M,识别结果保存72小时(从识别完成的时间算起),72小时后如果再访问,将会返回错误 。当前仅支持识别中文普通话的录音文件。
- 输入参数
用户配置提交录音文件识别任务执行动作,相关参数说明如表13所示。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表14。
获取录音文件识别结果
该接口用于获取录音文件识别结果及识别状态
- 输入参数
用户配置获取录音文件识别结果执行动作,相关参数说明如表15所示。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表16。
表16 提交录音文件识别任务输出参数说明 参数
说明
当前识别状态
当前识别状态。
任务创建时间
所使用的模型特征串,有下拉框和输入框模式。默认为“采样率8k的中文普通话语音识别”。
开始识别时间
存放录音文件地址,推荐使用OBS地址。
识别完成时间
是否在识别结果中添加标点,有下拉框和输入框模式。默认为“是”。
segments
识别结果。
起始时间戳
起始时间戳,ms。
结束时间戳
结束时间戳,ms。
识别结果文本
文本显示识别后的结果信息。
word_info
分词信息列表。
起始时间
识别动作的起始时间。
结束时间
识别动作的结束时间。
分词
显示文本分词。
角色类型
角色类型,目前仅支持。
情绪类型
情绪类型,目前仅支持NOMAL(正常),ANGRY(愤怒),UNKNOWN(未知)。
语速类型
语速信息单位是每秒字数。
录音文件识别极速版
极速版ASR(Restful API接口),适用于音频(文件大小<=100M,语音时长<=30分钟)文件的同步识别,此接口以POST方式一次性上传整个音频或从华为OBS中下载音频,识别结果将在请求响应中即刻返回,用于语音文件极速转写,质检分析的离线场景 。当前仅支持识别中文普通话的录音文件。
- 输入参数
用户配置录音文件识别极速版执行动作,相关参数说明如表17所示。
表17 录音文件识别极速版输入参数说明 参数
必填
说明
选择模型特征串
是
所使用的模型特征串,通常是“语种_采样率_领域”的形式,采样率需要与音频采样率保持一致,当前支持如下模型特征串:中文_采样率16k_通用领域。有下拉框和输入框两种模式。
选择音频格式
是
音频格式,audio_format取值范围:wav,mp3,m4a,aac,opus。有下拉框和输入框两种模式。
是否使用标点符号
否
是否加标点,可以为是,默认否。有下拉框和输入框两种模式。
是否将音频中的数字使用阿拉伯数字的形式
否
是否将音频中的数字使用阿拉伯数字的形式呈现,取值为是,否,默认为是。有下拉框和输入框两种模式。
输出结果是否分词
否
表示是否在识别结果中输出分词结果信息,取值为是,否,默认否。有下拉框和输入框两种模式。
热词表ID
否
热词表ID。
是否仅识别首个声道数据
否
表示是否在识别中只识别首个声道的音频数据,取值为“是”和“否”,默认为“否” 。有下拉框和输入框两种模式。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表18。
语音合成
将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。是一种将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。
接口功能及调用方法请参考语音合成
- 输入参数
用户配置语音合成执行动作,相关参数说明如表19所示。
- 输出参数
用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表20。