文档首页/ 开天集成工作台 MSSI/ 用户指南/ 连接器/ 公共连接器/ 华为类/ 华为语音识别

更新时间：2024-07-01 GMT+08:00

华为语音识别

华为语言识别连接器基于华为云语音交互服务 SIS服务进行集成开发，包含“一句话识别”、“热词管理”、“录音文件识别”、“语音合成”等执行动作。

连接参数

华为语音识别连接器使用IAM认证，连接参数说明如表1所示。

表1 连接参数说明
名称	必填	说明	示例值/默认值
连接名称	是	设置连接名称。	华为语音识别的连接
描述	否	对于连接的信息描述说明。	description
租户名	是	IAM用户所属账号信息。了解账号与IAM用户的关系。	domain
用户名	是	IAM用户名。	name
密码	是	IAM用户的登录密码。	-
项目ID	是	系统为用户自动生成的项目ID，单击“我的凭证 > API凭证”，根据项目获取。	e9993fc787************a340f9c0f4
站点	是	站点。	iam.cn-north-4.myhuaweicloud.com

一句话识别

用于短语音的同步识别。一次性上传1min以内音频，能快速返回识别结果。该接口的使用限制请参见约束与限制，详细使用指导请参见SIS服务使用简介章节。

接口功能及调用方法请参考一句话识别。

输入参数

用户配置一句话识别执行动作，相关参数说明如表2所示。

表2 一句话识别输入参数说明
参数	必填	说明
选择语音格式	是	支持语音的格式，有下拉框和输入框模式。有多种语音格式供选择。
选择语种_采样率_领域	否	所使用的模型特征串，有下拉框和输入框模式，提供多种语言类型选择。
识别结果允许使用标点	否	是否在识别结果中添加标点，有下拉框和输入框模式，默认为“是”。
识别结果输出分词	否	是否在识别结果中输出分词结果信息，有下拉框和输入框模式，默认为“是”。
语音数据	否	语音数据Base64编码字符串。

输出参数

用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表3。

表3 一句话识别输出参数说明
参数	说明
内容	内容。
置信度	置信度。
word_info	分词信息列表。
起始时间	识别动作的起始时间。
结束时间	识别动作的结束时间。
分词	显示文本分词。

热词管理

在一句话识别、录音文件识别、实时语音识别服务中，如果在您的业务领域有一些特有的词，默认识别效果差的时候可以考虑使用热词管理功能，将这些词添加到词表，改善识别效果。热词管理功能包括“创建热词表”、“查询热词表列表”、“查询热词表信息”、“更新热词表”和“删除热词表”五个执行动作。

接口功能及调用方法请参考热词管理。

创建热词表

新建一个热词表，每个用户限制创建10个热词表。

接口功能及调用方法请参考热词管理。

输入参数

用户配置创建热词表执行动作，相关参数说明如表4所示。

表4 创建热词表输入参数说明
参数	必填	说明
热词表名	是	输入热词表名。
热词表描述	否	对热词表进行描述。
热词表语言类型	是	输入热词表语言类型，目前仅支持汉语普通话。有下拉框和输入框模式。

输出参数
 用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表5。

表5 创建热词表输出参数说明

参数

说明

热词表ID

返回显示热词表ID。

查询热词表列表

查询用户所有热词表列表。

接口功能及调用方法请参考热词管理。

输入参数
 用户配置查询热词表列表执行动作，相关参数说明如表6所示。

表6 查询热词表列表输入参数说明

参数

必填

说明

热词表名

否

热词表的表名，用于筛选热词表表名。

表6 查询热词表列表输入参数说明
参数	必填	说明
热词表名	否	热词表的表名，用于筛选热词表表名。

输出参数

用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表7。

表7 查询热词表列表输出参数说明
参数	说明
热词表ID	返回显示热词表ID。
热词表语言类型	对热词表的语言类型显示。
热词表名	热词表名显示。
热词表描述	热词表描述显示。

更新热词表

更新一个热词表

输入参数

用户配置更新热词表执行动作，相关参数说明如表8所示。

表8 更新热词表输入参数说明
参数	必填	说明
待更新热词表ID	是	待更新的热词表的表名，用于筛选热词表表名。
热词表名	是	更新后的热词表名。
热词表语言类型	是	热词表语言类型，目前仅支持汉语普通话。有下拉框和输入框模式。
热词表描述	否	对热词表信息描述。

输出参数
 用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表9。

表9 更新热词表输出参数说明

参数

说明

热词表ID

返回显示热词表ID。

查询热词表信息

通过热词表ID查询热词表的信息和内容。

输入参数
 用户配置查询热词表信息执行动作，相关参数说明如表10所示。

表10 查询热词表信息输入参数说明

参数

必填

说明

热词表ID

是

输入热词表ID。

**表10** 查询热词表信息输入参数说明
参数	必填	说明
热词表ID	是	输入热词表ID。

输出参数

用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表11。

**表11** 查询热词表信息输出参数说明
参数	说明
热词表ID	被更新的热词表的表名，用于筛选热词表表名。
热词表名	更新后的热词表名。
热词表语言类型	热词表语言类型。
热词表描述	对热词表信息描述。
热词表列表	热词表列表以数组显示。

删除热词表

通过热词表ID删除热词表。

输入参数
 用户配置删除热词表执行动作，相关参数说明如表12所示。

表12 删除热词表输入参数说明

参数

必填

说明

热词表ID

是

输入热词表ID。

**表12** 删除热词表输入参数说明
参数	必填	说明
热词表ID	是	输入热词表ID。

输出参数
 删除成功无输出显示。

录音文件识别

录音文件识别接口，用于识别长录音文件，录音文件放在OBS（对象存储服务）或公网可访问的服务器上。录音识别包括“提交录音文件识别任务”、“获取录音文件识别结果”、“录音文件识别极速版”三个执行动作。

接口功能及调用方法请参考录音文件识别。

提交录音文件识别任务

录音文件识别接口，用于识别长录音文件，录音文件放在华为云OBS（对象存储服务）上，由于录音文件识别通常会需要较长的时间，因此识别是异步的，也即接口分为创建识别任务和查询任务状态两个接口，创建识别任务接口创建任务完成后返回，然后用户通过调用查询任务状态接口来获得转写状态和结果。

该接口用于提交录音文件识别任务，其中录音文件保存在用户的OBS桶中。用户开通录音识别服务时，需授权录音文件引擎读取用户OBS桶权限。录音时长不超过5小时，文件大小不超过300M，识别结果保存72小时（从识别完成的时间算起），72小时后如果再访问，将会返回错误。当前仅支持识别中文普通话的录音文件。

输入参数

用户配置提交录音文件识别任务执行动作，相关参数说明如表13所示。

**表13** 提交录音文件识别任务输入参数说明
参数	必填	说明
选择语音格式	否	支持的语音格式。有下拉框和输入框模式，默认为自动判断。
选择语种_采样率_领域	否	所使用的模型特征串，有下拉框和输入框模式。默认为“采样率8k的中文普通话语音识别”。
录音文件地址	否	存放录音文件地址，推荐使用OBS地址。
识别结果使用标点	否	是否在识别结果中添加标点，有下拉框和输入框模式。默认为“是”。
是否输出分词结果信息	否	是否输出分词结果信息，有下拉框和输入框模式，默认为“是”。

输出参数
 用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表14。

表14 提交录音文件识别任务输出参数说明

参数

说明

创建的任务标识

显示录音文件识别任务标识符。

**表14** 提交录音文件识别任务输出参数说明
参数	说明
创建的任务标识	显示录音文件识别任务标识符。

获取录音文件识别结果

该接口用于获取录音文件识别结果及识别状态

输入参数
 用户配置获取录音文件识别结果执行动作，相关参数说明如表15所示。

表15 获取录音文件识别结果输入参数说明

参数

必填

说明

录音文件识别任务ID

是

录音文件识别任务标识符。

**表15** 获取录音文件识别结果输入参数说明
参数	必填	说明
录音文件识别任务ID	是	录音文件识别任务标识符。

输出参数

用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表16。

**表16** 提交录音文件识别任务输出参数说明
参数	说明
当前识别状态	当前识别状态。
任务创建时间	所使用的模型特征串，有下拉框和输入框模式。默认为“采样率8k的中文普通话语音识别”。
开始识别时间	存放录音文件地址，推荐使用OBS地址。
识别完成时间	是否在识别结果中添加标点，有下拉框和输入框模式。默认为“是”。
segments	识别结果。
起始时间戳	起始时间戳，ms。
结束时间戳	结束时间戳，ms。
识别结果文本	文本显示识别后的结果信息。
word_info	分词信息列表。
起始时间	识别动作的起始时间。
结束时间	识别动作的结束时间。
分词	显示文本分词。
角色类型	角色类型，目前仅支持。
情绪类型	情绪类型，目前仅支持NOMAL（正常），ANGRY（愤怒），UNKNOWN（未知）。
语速类型	语速信息单位是每秒字数。

录音文件识别极速版

极速版ASR（Restful API接口），适用于音频（文件大小<=100M，语音时长<=30分钟）文件的同步识别，此接口以POST方式一次性上传整个音频或从华为OBS中下载音频，识别结果将在请求响应中即刻返回，用于语音文件极速转写，质检分析的离线场景。当前仅支持识别中文普通话的录音文件。

输入参数

用户配置录音文件识别极速版执行动作，相关参数说明如表17所示。

**表17** 录音文件识别极速版输入参数说明
参数	必填	说明
选择模型特征串	是	所使用的模型特征串，通常是“语种_采样率_领域”的形式，采样率需要与音频采样率保持一致，当前支持如下模型特征串：中文_采样率16k_通用领域。有下拉框和输入框两种模式。
选择音频格式	是	音频格式，audio_format取值范围：wav，mp3，m4a，aac，opus。有下拉框和输入框两种模式。
是否使用标点符号	否	是否加标点，可以为是，默认否。有下拉框和输入框两种模式。
是否将音频中的数字使用阿拉伯数字的形式	否	是否将音频中的数字使用阿拉伯数字的形式呈现，取值为是，否，默认为是。有下拉框和输入框两种模式。
输出结果是否分词	否	表示是否在识别结果中输出分词结果信息，取值为是，否，默认否。有下拉框和输入框两种模式。
热词表ID	否	热词表ID。
是否仅识别首个声道数据	否	表示是否在识别中只识别首个声道的音频数据，取值为“是”和“否”，默认为“否” 。有下拉框和输入框两种模式。

输出参数

用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表18。

**表18** 录音文件识别极速版输出参数说明
参数	说明
音频时长，单位毫秒	音频时长，单位毫秒。
flash_result	识别结果。
声道Id	声道ID。
sentences	分句信息列表。
开始时间	开始时间。
结束时间	结束时间。
内容	内容。
置信度	置信度（0-1之间）。
word_info	分词信息列表。
分词	分词。
起始时间	起始时间。
结束时间	结束时间。

语音合成

将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果，将用户输入的文字合成为音频。通过音色选择、自定义音量、语速，为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制，详细使用指导请参见SIS服务使用简介章节。是一种将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果，将用户输入的文字合成为音频。通过音色选择、自定义音量、语速，为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制，详细使用指导请参见SIS服务使用简介章节。

接口功能及调用方法请参考语音合成

输入参数

用户配置语音合成执行动作，相关参数说明如表19所示。

**表19** 语音合成输入参数说明
参数	必填	说明
待合成的文本	是	待合成的文本，文本长度限制小于500字符。
选择语音格式	否	语音格式头：wav、mp3、pcm。默认：wav。有下拉框和输入框两种模式。
选择采样率	否	采样率：16000、8000，默认：8000。有下拉框和输入框两种模式。
语速	否	语速，取值范围：-500~500，默认值：0。
音高	否	音高，取值范围：-500~500，默认值：0。
音量	否	音量，取值范围：0~100，默认值：50。

输出参数
 用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表20。

表20 语音合成输出参数说明

参数

说明

语音合成数据Base64编码

语音合成数据，以Base64编码格式返回。

**表20** 语音合成输出参数说明
参数	说明
语音合成数据Base64编码	语音合成数据，以Base64编码格式返回。

父主题： 华为类

上一篇：华为人脸识别

下一篇：华为语言生成

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问

华为语音识别

连接参数

一句话识别

热词管理

创建热词表

查询热词表列表

更新热词表

查询热词表信息

删除热词表

录音文件识别

提交录音文件识别任务

获取录音文件识别结果

录音文件识别极速版

语音合成

相关文档

意见反馈

文档内容是否对您有帮助？