语音交互服务 SIS
语音交互服务 SIS
- 最新动态
- 服务公告
- 产品介绍
- 快速入门
- 用户指南
- SDK参考
- API参考
-
常见问题
- 产品咨询类
- 计费类
-
API使用类
- 如何查看接口调用量
- 为什么WebSocket一直连接不成功
- 为什么会出现识别结果非常差的情况
- 如何使用Websocket调用实时语音识别
- 有哪些途径可以使用语音交互的API
- 返回状态正常,但识别结果为空
- Token消息体中user name,domain name和project name分别指的是什么
- 如何调整并发
- 为什么录音文件识别出现重复转写结果
- 调用语音交互的API显示auth failed
- 调用语音交互的API超时怎么处理(connect timeout)
- 为什么服务端返回OBS链接不可用(data url is unreachable)
- 语音合成的base64编码如何使用
- 录音文件识别多久可以返回结果
- 语音合成能不能支持返回立体音(双声道)格式的音频
- 如何解决“The silence time is too long, and the audio will not be recognized”报错
- Token怎么获取
- 如何申请公测
- 如何修改发音人
- 实时语音识别多人同时使用,如何区分各自识别结果
- 使用HTML5 Websocket API发送websocket请求如何携带token
- 如何查看实时语音识别的中间结果
- SDK使用类
- 错误码类
- 部署类
- 区域与可用区
- 权限类
- 服务声明类
- 文档下载
- 通用参考
本文导读
展开导读
链接复制成功!
概述
欢迎使用语音交互服务(Speech Interaction Service ,简称SIS)。
语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。支持用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
语音交互(实时语音识别、一句话识别、录音文件识别、语音合成)服务所提供的API为自研API。
接口类型 |
说明 |
---|---|
实时语音识别接口 |
华为云提供的Websocket接口,主要用于实时语音识别。音频分片传输,服务器端可以返回中间临时转写结果,在最后返回最终转写结果。 |
接口类型 |
说明 |
---|---|
一句话识别 |
一句话识别接口,用于短语音的同步识别。一次性上传整个音频,响应中即返回识别结果。 |
接口类型 |
说明 |
---|---|
录音文件识别 |
录音文件识别接口,用于转写不超过5小时的音频。由于录音文件转写需要较长的时间,因此转写是异步的。 |
接口类型 |
说明 |
---|---|
语音合成/实时语音合成 |
语音合成,依托先进的语音技术,使用深度学习算法,将文本转换为自然流畅的语音。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速、音高等,可自定义音频格式,为企业和个人提供个性化的发音服务。 |
父主题: 使用前必读