更新时间:2024-07-01 GMT+08:00
分享

华为语音识别

华为语言识别连接器基于华为云语音交互服务 SIS服务进行集成开发,包含“一句话识别”、“热词管理”、“录音文件识别”、“语音合成”等执行动作。

连接参数

华为语音识别连接器使用IAM认证,连接参数说明如表1所示。

表1 连接参数说明

名称

必填

说明

示例值/默认值

连接名称

设置连接名称。

华为语音识别的连接

描述

对于连接的信息描述说明。

description

租户名

IAM用户所属账号信息。了解账号与IAM用户的关系

domain

用户名

IAM用户名。

name

密码

IAM用户的登录密码。

-

项目ID

系统为用户自动生成的项目ID,单击“我的凭证 > API凭证”,根据项目获取。

e9993fc787************a340f9c0f4

站点

站点。

iam.cn-north-4.myhuaweicloud.com

一句话识别

用于短语音的同步识别。一次性上传1min以内音频,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。

接口功能及调用方法请参考一句话识别

  • 输入参数

    用户配置一句话识别执行动作,相关参数说明如表2所示。

    表2 一句话识别输入参数说明

    参数

    必填

    说明

    选择语音格式

    支持语音的格式,有下拉框和输入框模式。有多种语音格式供选择。

    选择语种_采样率_领域

    所使用的模型特征串,有下拉框和输入框模式,提供多种语言类型选择。

    识别结果允许使用标点

    是否在识别结果中添加标点,有下拉框和输入框模式,默认为“是”。

    识别结果输出分词

    是否在识别结果中输出分词结果信息,有下拉框和输入框模式,默认为“是”。

    语音数据

    语音数据Base64编码字符串。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表3

    表3 一句话识别输出参数说明

    参数

    说明

    内容

    内容。

    置信度

    置信度。

    word_info

    分词信息列表。

    起始时间

    识别动作的起始时间。

    结束时间

    识别动作的结束时间。

    分词

    显示文本分词。

热词管理

在一句话识别、录音文件识别、实时语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。热词管理功能包括“创建热词表”、“查询热词表列表”、“查询热词表信息”、“更新热词表”和“删除热词表”五个执行动作。

接口功能及调用方法请参考热词管理

创建热词表

新建一个热词表, 每个用户限制创建10个热词表 。

接口功能及调用方法请参考热词管理

  • 输入参数

    用户配置创建热词表执行动作,相关参数说明如表4所示。

    表4 创建热词表输入参数说明

    参数

    必填

    说明

    热词表名

    输入热词表名。

    热词表描述

    对热词表进行描述。

    热词表语言类型

    输入热词表语言类型,目前仅支持汉语普通话。有下拉框和输入框模式。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表5

    表5 创建热词表输出参数说明

    参数

    说明

    热词表ID

    返回显示热词表ID。

查询热词表列表

查询用户所有热词表列表。

接口功能及调用方法请参考热词管理

  • 输入参数

    用户配置查询热词表列表执行动作,相关参数说明如表6所示。

    表6 查询热词表列表输入参数说明

    参数

    必填

    说明

    热词表名

    热词表的表名,用于筛选热词表表名。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表7

    表7 查询热词表列表输出参数说明

    参数

    说明

    热词表ID

    返回显示热词表ID。

    热词表语言类型

    对热词表的语言类型显示。

    热词表名

    热词表名显示。

    热词表描述

    热词表描述显示。

更新热词表

更新一个热词表

  • 输入参数

    用户配置更新热词表执行动作,相关参数说明如表8所示。

    表8 更新热词表输入参数说明

    参数

    必填

    说明

    待更新热词表ID

    待更新的热词表的表名,用于筛选热词表表名。

    热词表名

    更新后的热词表名。

    热词表语言类型

    热词表语言类型,目前仅支持汉语普通话。有下拉框和输入框模式。

    热词表描述

    对热词表信息描述。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表9

    表9 更新热词表输出参数说明

    参数

    说明

    热词表ID

    返回显示热词表ID。

查询热词表信息

通过热词表ID查询热词表的信息和内容 。

  • 输入参数

    用户配置查询热词表信息执行动作,相关参数说明如表10所示。

    表10 查询热词表信息输入参数说明

    参数

    必填

    说明

    热词表ID

    输入热词表ID。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表11

    表11 查询热词表信息输出参数说明

    参数

    说明

    热词表ID

    被更新的热词表的表名,用于筛选热词表表名。

    热词表名

    更新后的热词表名。

    热词表语言类型

    热词表语言类型。

    热词表描述

    对热词表信息描述。

    热词表列表

    热词表列表以数组显示。

删除热词表

通过热词表ID删除热词表 。

  • 输入参数

    用户配置删除热词表执行动作,相关参数说明如表12所示。

    表12 删除热词表输入参数说明

    参数

    必填

    说明

    热词表ID

    输入热词表ID。

  • 输出参数

    删除成功无输出显示。

录音文件识别

录音文件识别接口,用于识别长录音文件,录音文件放在OBS(对象存储服务)或公网可访问的服务器上。录音识别包括“提交录音文件识别任务”、“获取录音文件识别结果”、“录音文件识别极速版”三个执行动作。

接口功能及调用方法请参考录音文件识别

提交录音文件识别任务

录音文件识别接口,用于识别长录音文件,录音文件放在华为云OBS(对象存储服务)上,由于录音文件识别通常会需要较长的时间,因此识别是异步的,也即接口分为创建识别任务和查询任务状态两个接口,创建识别任务接口创建任务完成后返回,然后用户通过调用查询任务状态接口来获得转写状态和结果。

该接口用于提交录音文件识别任务,其中录音文件保存在用户的OBS桶中。用户开通录音识别服务时,需授权录音文件引擎读取用户OBS桶权限。录音时长不超过5小时,文件大小不超过300M,识别结果保存72小时(从识别完成的时间算起),72小时后如果再访问,将会返回错误 。当前仅支持识别中文普通话的录音文件。

  • 输入参数

    用户配置提交录音文件识别任务执行动作,相关参数说明如表13所示。

    表13 提交录音文件识别任务输入参数说明

    参数

    必填

    说明

    选择语音格式

    支持的语音格式。有下拉框和输入框模式,默认为自动判断。

    选择语种_采样率_领域

    所使用的模型特征串,有下拉框和输入框模式。默认为“采样率8k的中文普通话语音识别”。

    录音文件地址

    存放录音文件地址,推荐使用OBS地址。

    识别结果使用标点

    是否在识别结果中添加标点,有下拉框和输入框模式。默认为“是”。

    是否输出分词结果信息

    是否输出分词结果信息,有下拉框和输入框模式,默认为“是”。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表14

    表14 提交录音文件识别任务输出参数说明

    参数

    说明

    创建的任务标识

    显示录音文件识别任务标识符。

获取录音文件识别结果

该接口用于获取录音文件识别结果及识别状态

  • 输入参数

    用户配置获取录音文件识别结果执行动作,相关参数说明如表15所示。

    表15 获取录音文件识别结果输入参数说明

    参数

    必填

    说明

    录音文件识别任务ID

    录音文件识别任务标识符。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表16

    表16 提交录音文件识别任务输出参数说明

    参数

    说明

    当前识别状态

    当前识别状态。

    任务创建时间

    所使用的模型特征串,有下拉框和输入框模式。默认为“采样率8k的中文普通话语音识别”。

    开始识别时间

    存放录音文件地址,推荐使用OBS地址。

    识别完成时间

    是否在识别结果中添加标点,有下拉框和输入框模式。默认为“是”。

    segments

    识别结果。

    起始时间戳

    起始时间戳,ms。

    结束时间戳

    结束时间戳,ms。

    识别结果文本

    文本显示识别后的结果信息。

    word_info

    分词信息列表。

    起始时间

    识别动作的起始时间。

    结束时间

    识别动作的结束时间。

    分词

    显示文本分词。

    角色类型

    角色类型,目前仅支持。

    情绪类型

    情绪类型,目前仅支持NOMAL(正常),ANGRY(愤怒),UNKNOWN(未知)。

    语速类型

    语速信息单位是每秒字数。

录音文件识别极速版

极速版ASR(Restful API接口),适用于音频(文件大小<=100M,语音时长<=30分钟)文件的同步识别,此接口以POST方式一次性上传整个音频或从华为OBS中下载音频,识别结果将在请求响应中即刻返回,用于语音文件极速转写,质检分析的离线场景 。当前仅支持识别中文普通话的录音文件。

  • 输入参数

    用户配置录音文件识别极速版执行动作,相关参数说明如表17所示。

    表17 录音文件识别极速版输入参数说明

    参数

    必填

    说明

    选择模型特征串

    所使用的模型特征串,通常是“语种_采样率_领域”的形式,采样率需要与音频采样率保持一致,当前支持如下模型特征串:中文_采样率16k_通用领域。有下拉框和输入框两种模式。

    选择音频格式

    音频格式,audio_format取值范围:wav,mp3,m4a,aac,opus。有下拉框和输入框两种模式。

    是否使用标点符号

    是否加标点,可以为是,默认否。有下拉框和输入框两种模式。

    是否将音频中的数字使用阿拉伯数字的形式

    是否将音频中的数字使用阿拉伯数字的形式呈现,取值为是,否,默认为是。有下拉框和输入框两种模式。

    输出结果是否分词

    表示是否在识别结果中输出分词结果信息,取值为是,否,默认否。有下拉框和输入框两种模式。

    热词表ID

    热词表ID。

    是否仅识别首个声道数据

    表示是否在识别中只识别首个声道的音频数据,取值为“是”和“否”,默认为“否” 。有下拉框和输入框两种模式。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表18

    表18 录音文件识别极速版输出参数说明

    参数

    说明

    音频时长,单位毫秒

    音频时长,单位毫秒。

    flash_result

    识别结果。

    声道Id

    声道ID。

    sentences

    分句信息列表。

    开始时间

    开始时间。

    结束时间

    结束时间。

    内容

    内容。

    置信度

    置信度(0-1之间)。

    word_info

    分词信息列表。

    分词

    分词。

    起始时间

    起始时间。

    结束时间

    结束时间。

语音合成

将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。是一种将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。

接口功能及调用方法请参考语音合成

  • 输入参数

    用户配置语音合成执行动作,相关参数说明如表19所示。

    表19 语音合成输入参数说明

    参数

    必填

    说明

    待合成的文本

    待合成的文本,文本长度限制小于500字符。

    选择语音格式

    语音格式头:wav、mp3、pcm。默认:wav。有下拉框和输入框两种模式。

    选择采样率

    采样率:16000、8000,默认:8000。有下拉框和输入框两种模式。

    语速

    语速,取值范围:-500~500,默认值:0。

    音高

    音高,取值范围:-500~500,默认值:0。

    音量

    音量,取值范围:0~100,默认值:50。

  • 输出参数

    用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表20

    表20 语音合成输出参数说明

    参数

    说明

    语音合成数据Base64编码

    语音合成数据,以Base64编码格式返回。

相关文档