如何语音合成_Websocket握手请求-华为云

Websocket握手请求

Websocket握手请求功能介绍本接口提供实时流式语音合成。用户每次建立连接，发送待合成文本，服务端将合成结果响应给用户。一次连接只能发送一次文本，如果有多段文本需要合成，需要多次建立连接。实时语音合成和语音合成均属于语音合成接口，采用完全相同的计费规则，两者价格梯度可互相叠加，可参考价格计算器。

来自：帮助中心

查看更多 →
应用场景

议效率。即时文本录入手机App上实时录音并即时提供转写的文本，例如语音输入法等。人机交互通过语音合成，实现高品质的机器人发声，使得人机交互更加自然。智能客服借助语音合成，联络中心可以用自然的声音与客户互动。

来自：帮助中心

查看更多 →
语音交互服务使用简介

互结果。华为云SIS服务支持调用一句话识别、录音文件识别、实时语言识别、语音合成接口等。用户通过调用语音识别类接口，将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本，同时也支持通过调用语音合成接口将文本转换成逼真的语音等。适用场景有语音客服质检、会议记录、语音短消息、有声读物、电话回访等。

来自：帮助中心

查看更多 →
实时语音识别

当前服务仅支持北京和上海区域，后续会陆续上线其他区域。华北-北京四，推荐的区域，支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。华东-上海一，推荐的区域，支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。音频采样率8KHz或者16KHz，采样位数8bit或者16bit。支持中

来自：帮助中心

查看更多 →
本地调用

本地调用本章节以语音合成为例，介绍如何使用SIS Python SDK在本地进行开发。该SDK可以将用户输入的文字合成为音频。通过音色选择，自定义音量、语速，实现个性化音频的生成。前提条件注册华为账号并开通华为云，并完成实名认证，账号不能处于欠费、冻结、被注销等异常状态。

来自：帮助中心

查看更多 →
一句话识别

当前服务仅支持北京和上海区域，后续会陆续上线其他区域。华北-北京四，推荐的区域，支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。华东-上海一，推荐的区域，支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。支持pcm16k16bit、pcm8k16bit、ulaw16k8bit、

来自：帮助中心

查看更多 →
附录

OBS：是一个基于对象的海量存储服务，为客户提供海量、安全、高可靠、低成本的数据存储能力。语音合成 TTS ：是一种将文本转换为语音的技术。它使用先进的语音合成技术，将文本转换为可听的人工语音。主要提供如下集中关键的特性：语音合成计算机可以模拟人类的语音，实现自然、流畅、准确的语音输出。语音模型训练

来自：帮助中心

查看更多 →
API概览

状态查询：GET /v1/{project_id}/asr/transcriber/jobs/{job_id} 语音合成接口语音合成接口 POST /v1/{project_id}/tts 表2 WebSocket API功能接口功能 API URI 实时语音识别接口（请求）开始识别

来自：帮助中心

查看更多 →
资源和成本规划

该解决方案主要部署如下资源，不同产品的花费仅供参考，具体请参考华为云官网价格详情，实际收费以账单为准。表1 资源和成本规划（按需计费）华为云服务配置示例每月预估花费语音合成 TTS 按需计费：2元/千次（大于10千次/月）区域：华北-北京四计费模式：按需计费购买量：1 接口调用次数费用函数工作流 FunctionGraph

来自：帮助中心

查看更多 →
CPP SDK（Windows）

CPP SDK（Windows）使用实时语音识别使用实时语音合成

来自：帮助中心

查看更多 →
CPP SDK（Linux）

CPP SDK（Linux）使用实时语音识别使用实时语音合成

来自：帮助中心

查看更多 →
使用流程简介

使用流程简介用户通过调用SIS服务提供的API或SDK，进行语音转文本或语音合成任务，返回的结果需要您通过编码对接到业务系统中。图1 使用流程

来自：帮助中心

查看更多 →
约束与限制

约束与限制实时语音识别一句话识别录音文件识别语音合成录音文件识别极速版

来自：帮助中心

查看更多 →
音频流数据

音频流数据功能介绍分多段返回二进制语音数据流，如果用户未设置语音格式，则默认返回pcm格式语音。父主题：语音合成结果响应

来自：帮助中心

查看更多 →
如何查看当前接口是否免费调用

如何查看当前接口是否免费调用计费项一句话识别、语音合成按调用次数计费；实时语音识别、录音文件识别按音频时长计费；录音文件识别极速版按照“音频时长×需要识别的音频声道数“计费，时长计算精确到秒。按音频时长计费的，累加每次调用的音频时长。按调用次数计费的，返回失败的调用不计入次数。

来自：帮助中心

查看更多 →
文本驱动SSML定义

文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言（SSML，Speech Synthesis Markup Language）来控制数字人的行为，包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。MetaStudio

来自：帮助中心

查看更多 →
支持哪些语言

支持哪些语言录音文件识别、语音合成支持中文普通话。一句话识别和实时语音识别支持中文普通话，带方言口音的普通话和方言（四川话、粤语和上海话）。父主题：产品咨询类

来自：帮助中心

查看更多 →
应用示例

应用示例示例1：分身形象制作管理示例2：声音制作任务管理示例3：语音合成管理示例4：视频制作示例5：视频制作剧本管理示例6：视频直播示例7：视频直播对接实时音视频客户端SDK 示例8：资产管理示例9：数字人名片制作示例10：智能交互

来自：帮助中心

查看更多 →
华为语音识别

和调用API获取语音合成结果，将用户输入的文字合成为音频。通过音色选择、自定义音量、语速，为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制，详细使用指导请参见SIS服务使用简介章节。接口功能及调用方法请参考语音合成输入参数用户配置语音合成执行动作，相关参数说明如表19所示。

来自：帮助中心

查看更多 →
时间戳数据

时间戳数据功能介绍实时语音合成服务在生成音频流的同时，可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。参数设置设置请求参数subtitle为"word_level"或"phoneme_level"时，开启时间戳功能。响应信息表1 响应参数

来自：帮助中心

查看更多 →
功能体验与试用

功能体验与试用语音交互服务（Speech Interaction Service，SIS）支持语音识别、语音合成功能。适用语音客服质检、会议记录、语音短消息、有声读物、电话回访等场景。在使用服务前，请先使用SIS体验中心体验服务功能。该方式无需编程，只需在网页端上传文字或音频，即可体验合成效果。

来自：帮助中心

查看更多 →