专注语音合成语音识别_语音同步合成WebSocket接口-华为云

语音同步合成WebSocket接口

击“确定”，开通按需计费。开通后的效果如图1所示。如需使用第三方声音进行语音合成，请购买出门问问声音套餐。图1 声音合成功能介绍该接口用于 TTS 流式合成音频，用于文本转化为语音，并实时返回合成的音频数据。调用方法构造请求请求URL：wss://metastudio-api

来自：帮助中心

查看更多 →
计费说明

计费说明计费项一句话识别、语音合成按调用次数计费；实时语音识别、录音文件识别按音频时长计费；录音文件识别极速版按照“音频时长×需要识别的音频声道数“计费，时长计算精确到秒。按音频时长计费的，累加每次调用的音频时长。按调用次数计费的，返回失败的调用不计入次数。调用热词接口，不单独计费。

来自：帮助中心

查看更多 →
附录

OBS：是一个基于对象的海量存储服务，为客户提供海量、安全、高可靠、低成本的数据存储能力。语音合成 TTS：是一种将文本转换为语音的技术。它使用先进的语音合成技术，将文本转换为可听的人工语音。主要提供如下集中关键的特性：语音合成计算机可以模拟人类的语音，实现自然、流畅、准确的语音输出。语音模型训练

来自：帮助中心

查看更多 →
方案概述

应用场景该解决方案基于华为云语音交互服务语音识别构建，可自动将用户上传到对象存储服务的wav语音文件转化为文字，并将结果存放到指定OBS桶。该方案可以将用户上传在OBS的语音文件识别成可编辑的文本，支持中文普通话的识别和合成，其中语音识别还支持带方言口音的普通话识别以及方言（四川

来自：帮助中心

查看更多 →
开始识别

chinese_16k_it 支持采样率为16k的IT会议语音识别。区域仅支持cn-north-4。 chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_common 支持采样率为16k的中文普通话语音识别。表4 audio_format取值范围

来自：帮助中心

查看更多 →
使用流程简介

使用流程简介用户通过调用SIS服务提供的API或SDK，进行语音转文本或语音合成任务，返回的结果需要您通过编码对接到业务系统中。图1 使用流程

来自：帮助中心

查看更多 →
方案概述

体验，用户可以获得更加直观、真实的服务体验，从而增强了用户对品牌的认知和信任度。另外，AI虚拟数字人系统还可以通过技术的升级，实现语音合成和语音识别技术的准确度提升，使得系统的回答更加准确、流畅。同时，系统可以根据用户的实时反馈和需求进行智能分析和处理，从而更好地满足用户的个性化

来自：帮助中心

查看更多 →
应用示例

应用示例示例1：上传资产示例2：分身形象制作管理示例3：声音制作任务管理示例4：语音合成管理示例5：视频制作示例6：视频制作剧本管理示例7：视频直播示例8：视频直播对接实时音视频客户端SDK 示例9：资产管理示例10：数字人名片制作示例11：智能交互

来自：帮助中心

查看更多 →
计费类

计费类套餐包购买后是否支持退款服务当前处于商用还是免费阶段如何收费如何续费查看套餐用量明细、账单明细账号中存在语音合成服务的套餐，但是为什么却收到了欠费的信息欠费后充值账户，为什么调用SIS API仍返回'resource type is RESTRICTED' 欠费后套餐包能否继续使用

来自：帮助中心

查看更多 →
如何解决“The silence time is too long, and the audio will not be recognized”报错

will not be recognized”？可能原因实时语音识别的初始静默时间过长无法识别。解决方案方法一：将参数设置中静默时间的参数vad_head 的值设置大一些，详细请参见API参考的实时语音识别的请求参数。方法二：处理音频文件，将识别文件初始的静默音频剪切掉。

来自：帮助中心

查看更多 →
是否支持aac格式的语音文件转文字

是否支持aac格式的语音文件转文字一句话识别和录音文件识别以及实时语音识别均可实现语音转文字，一句话识别支持aac格式，录音文件识别和实时语音识别不支持aac格式。父主题：产品咨询类

来自：帮助中心

查看更多 →
文本驱动SSML定义

文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言（SSML，Speech Synthesis Markup Language）来控制数字人的行为，包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。MetaStudio

来自：帮助中心

查看更多 →
错误码定义

错误码定义 CC-Gateway返回结果码订阅语音识别结果接口通用返回结果码 CTI返回通用错误码 CTI返回VDN配置接口错误码 CTI返回系统配置接口错误码 UAP返回错误码父主题：订阅语音识别结果接口

来自：帮助中心

查看更多 →
时间戳数据

时间戳数据功能介绍实时语音合成服务在生成音频流的同时，可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。参数设置设置请求参数subtitle为"word_level"或"phoneme_level"时，开启时间戳功能。响应信息表1 响应参数

来自：帮助中心

查看更多 →
发送音频数据

馈的情况下500ms。实时语音识别代码示例请参考SDK文档。当前SIS服务对于8k音频的分片大小限制为[160, 32768]字节, 16k音频的分片大小限制为[320, 65536]字节, 分片大小超出上限或低于下限会报错。父主题：实时语音识别请求

来自：帮助中心

查看更多 →
修订记录

修订记录表1 修订记录修改时间修改说明 2024-12-30 第十四次正式发布本次变更如下：语音合成管理接口组，新增接口：设置TTS租户级自定义读法配置、获取TTS租户级自定义读法配置、删除TTS租户级自定义读法配置、修改TTS租户级自定义读法配置。 2024-12-05

来自：帮助中心

查看更多 →
意图/槽位变量（TOC）

ChatBotIntentCode 语音识别匹配到的意图返回意图码，字符串类型。系统预置如下几个ChatBotIntentCode，可直接使用： systemQA：通常可以通过获取该参数的值来判断是否匹配到了正确的意图上。 ChatBotRespContent 语音识别匹配到的意图返回的答复信息，包括槽位和响应中配置的答复。

来自：帮助中心

查看更多 →
结束识别请求响应

结束识别请求响应服务器端收到“结束识别”请求时或语音识别过程中发生错误，服务端会向客户端推送如下响应消息，以json字符串形式放置在text message中。响应消息表1 响应参数参数名参数类型说明 resp_type String 响应类型。参数值为END，表示结束识别响应。

来自：帮助中心

查看更多 →
事件响应

静音超长，也即没有检测到声音。在流式一句话模式下：不会返回VOICE_START、VOICE_END、EXCEEDED_SILCENCE事件。在实时语音识别单句模式下：返回VOICE_START事件，表示检测到语音，此时IVR可以做打断。返回VOICE_END事件后，表示一句话结束，后续的音频将被忽略，不会再进行识别。

来自：帮助中心

查看更多 →
在线调试

Explorer在线调试工具提供API的检索、调试、代码示例生成功能。同时，集成开发环境 CloudIDE，可完成代码的构建、调试、运行。本章节以语音合成为例，介绍如何使用 API Explorer 调试API。前提条件注册华为账号并开通华为云，并完成实名认证，账号不能处于欠费、冻结、被注销等异常状态。

来自：帮助中心

查看更多 →
快速部署

result_bucket_name String 是 OBS桶名称，全局唯一，用于存放语音识别结果。取值范围：3~63个字符，支持小写字母、数字、中划线（-）、英文句号（.）。登录华为云解决方案实践，选择“语音识别解决方案”，单击“一键部署”，跳转至解决方案创建堆栈界面。图1 选择模板在选择模板界面中，单击“下一步”。

来自：帮助中心

查看更多 →