实时语音合成
前提条件
- 确保已按照配置Java环境配置完毕。
- 请参考SDK(websocket)获取最新版本SDK包。
初始化Client
初始化RttsClient,其参数包括AuthInfo和SisConfig。
参数名称 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
ak |
是 |
String |
用户的ak,可参考AK/SK认证。 |
sk |
是 |
String |
用户的sk,可参考AK/SK认证。 |
region |
是 |
String |
区域,如cn-north-4,参考终端节点。 |
projectId |
是 |
String |
项目ID,同region一一对应,参考获取项目ID。 |
endpoint |
否 |
String |
终端节点,参考地区和终端节点。 |
参数名称 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
connectionTimeout |
否 |
Integer |
连接超时,默认10000,单位ms。 |
readTimeout |
否 |
Integer |
读取超时,默认10000,单位ms。 |
websocketWaitTimeout |
否 |
Integer |
websocket最大等待超时,默认20000,单位ms |
请求参数
请求类为RttsRequest,详见表3。
名称 |
参数类型 |
是否必选 |
说明 |
---|---|---|---|
command |
String |
是 |
需设置为START,表示开始识别请求。 |
text |
String |
是 |
待合成的文本,文本长度限制小于500字符。 |
config |
Object |
否 |
配置信息。请参考表 config数据结构。 |
名称 |
参数类型 |
是否必选 |
说明 |
---|---|---|---|
audio_format |
String |
否 |
语音格式头:pcm、alaw、ulaw。 默认:pcm |
sample_rate |
String |
否 |
采样率:16000、8000。 默认:8000 |
property |
String |
否 |
语音合成特征字符串,组成形式为{language}_{speaker}_{domain},即“语种_人员标识_领域”。
默认:chinese_xiaoyan_common 实时语音合成和语音合成属于同一种资源,按次计费。实时语音合成普通发音人,每100字计一次。精品发音人每50字计一次。 |
speed |
Integer |
否 |
语速。 取值范围:-500~500 默认值:0 |
pitch |
Integer |
否 |
音高。 取值范围:-500~500 默认值:0 |
volume |
Integer |
否 |
音量。 取值范围:0~100 默认值:50 |
响应参数
代码示例
如下示例仅供参考,最新代码请前往SDK(websocket)章节获取并运行。
import com.cloud.sdk.util.StringUtils; import com.huawei.sis.bean.AuthInfo; import com.huawei.sis.bean.RttsListener; import com.huawei.sis.bean.SisConfig; import com.huawei.sis.bean.SisConstant; import com.huawei.sis.bean.request.RttsRequest; import com.huawei.sis.bean.response.RttsDataResponse; import com.huawei.sis.bean.response.StateResponse; import com.huawei.sis.client.RttsClient; import com.huawei.sis.util.JsonUtils; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; /** * 实时语音合成Demo * * Copyright 2021 Huawei Technologies Co.,Ltd. */ public class RttsDemo { // 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; // 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 private String ak = System.getenv("HUAWEICLOUD_SDK_AK"); private String sk = System.getenv("HUAWEICLOUD_SDK_SK"); private String region = ""; // 区域,如cn-north-1、cn-north-4 private String projectId = ""; // 项目id,在我的凭证查看。参考https://support.huaweicloud.com/api-sis/sis_03_0008.html private String text = ""; // 待合成的文本 private String path = ""; // 合成音频存储的路径 public static void main(String[] args) { RttsDemo rttsDemo = new RttsDemo(); rttsDemo.process(); } /** * 实时语音合成参数设置,所有参数设置均为可选,均有默认值。用户根据需求设置参数。 */ private RttsRequest getRttsRequest() { RttsRequest request = new RttsRequest(); request.setCommand("START"); // 设置待合成文本,文本长度1-500字 request.setText(text); RttsRequest.Config config = new RttsRequest.Config(); // 设置发音人属性,{language}_{speaker}_{domain}, 详见api文档 config.setPorperty("chinese_xiaoyan_common"); // 设置合成音频格式,默认pcm config.setAudioFormat("pcm"); // 设置合成音频采样率,当前支持8000和16000,默认8000 config.setSampleRate("8000"); // 设置合成音频音量大小,取值0-100,默认50 config.setVolume(50); // 设置合成音频音高大小,取值-500-500,默认0 config.setPitch(0); // 设置合成音频语速大小,取值-500-500,默认0 config.setSpeed(0); request.setConfig(config); return request; } /** * 定义config,所有参数可选,设置超时时间等。 * * @return SisConfig */ private SisConfig getConfig() { SisConfig config = new SisConfig(); // 设置连接超时,默认10000ms config.setConnectionTimeout(SisConstant.DEFAULT_CONNECTION_TIMEOUT); // 设置读取超时,默认10000ms config.setReadTimeout(SisConstant.DEFAULT_READ_TIMEOUT); // 设置websocket等待超时时间,默认20000ms config.setWebsocketWaitTimeout(SisConstant.DEFAULT_WEBSOCKET_WAIT_TIME); // 设置代理, 一定要确保代理可用才启动此设置。 代理初始化也可用不加密的代理,new ProxyHostInfo(host, port); // ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password); // config.setProxy(proxy); return config; } private void printResponse(Object response) { try { System.out.println(JsonUtils.obj2Str(response, true)); } catch (Exception e) { e.printStackTrace(); } } /** * 实时语音转写SDK的工作流程 * 1. RttsClient只能发送一次文本,如有多个文本需发送,需要多次新建RttsClient实例 * 2. 实时语音合成会多次收到音频响应,默认格式为pcm。在demo中会把多次返回的结果拼接起来,存入文件中。 * 3. 当服务端完成合成任务后,会返回end响应。 */ private void process() { // 1. 实现监听器接口RttsListener,用户自定义收到响应的处理逻辑。 RttsListener rttsListener = new MyRttsListener(path); // 2. 初始化RttsClient,每个client只能发送一次text,如需发送多次text,需要建立多个client AuthInfo authInfo = new AuthInfo(ak, sk, region, projectId); RttsClient rttsClient = new RttsClient(authInfo, rttsListener, getConfig()); // 3. 配置参数 // audioFormat为支持格式、property为属性字符串,具体填写请详细参考api文档 RttsRequest request = getRttsRequest(); // 4. 发送待合成文本,等待结果 try { rttsClient.synthesis(request); // 设置企业id, 可选 // Map<String, String> headers = OKHttpClientUtils.getJsonHeaders(); // headers.put(SisConstant.ENTERPRISE_PROJECT_ID_KEY, "your enterprise_id"); // rttsClient.synthesis(headers, request); } catch (Exception e) { e.printStackTrace(); } } public class MyRttsListener implements RttsListener { private String path; private FileOutputStream fos = null; public MyRttsListener() { super(); } public MyRttsListener(String path) { this.path = path; } @Override public void onTranscriptionResponse(RttsDataResponse rttsDataResponse) { System.out.println("receive binary data " + rttsDataResponse.getData().length); if (fos == null) { return; } try { fos.write(rttsDataResponse.getData()); } catch (IOException e) { e.printStackTrace(); } } @Override public void onTranscriptionBegin(StateResponse response) { printResponse(response); try { if (StringUtils.isNullOrEmpty(path)) { return; } File f = new File(path); fos = new FileOutputStream(f); } catch (IOException e) { e.printStackTrace(); } } @Override public void onSTranscriptionEnd(StateResponse response) { printResponse(response); close(); } @Override public void onTranscriptionFail(StateResponse response) { printResponse(response); close(); } private void close() { if (fos == null) { return; } try { fos.close(); } catch (IOException e) { e.printStackTrace(); } } } }