普通话语音转换成文字_什么是语音交互服务-华为云

什么是语音交互服务

将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本，同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。父主题：产品咨询类

来自：帮助中心

查看更多 →
概述

频、普通话或者带有一定方言的语音文件识别成可编辑的文本，同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。语音交互（实时语音识别、一句话识别、录音文件识别、语音合成）服务所提供的API为自研API。

来自：帮助中心

查看更多 →
方案概述

应用场景该解决方案基于华为云语音交互服务语音识别构建，可自动将用户上传到对象存储服务的wav语音文件转化为文字，并将结果存放到指定OBS桶。该方案可以将用户上传在OBS的语音文件识别成可编辑的文本，支持中文普通话的识别和合成，其中语音识别还支持带方言口音的普通话识别以及方言（四川话、粤

来自：帮助中心

查看更多 →
功能介绍

功能介绍实时语音识别实时语音识别服务，用户通过实时访问和调用API获取实时语音识别结果，支持的语言包含中文普通话、方言和英语，方言当前支持四川话、粤语和上海话。文本时间戳为音频转换结果生成特定的时间戳，从而通过搜索文本即可快速找到对应的原始音频。智能断句通过提取上下文

来自：帮助中心

查看更多 →
支持哪些语言

支持哪些语言录音文件识别、语音合成支持中文普通话。一句话识别和实时语音识别支持中文普通话，带方言口音的普通话和方言（四川话、粤语和上海话）。父主题：产品咨询类

来自：帮助中心

查看更多 →
华为语音识别

word_info 分词信息列表。分词分词。起始时间起始时间。结束时间结束时间。语音合成将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果，将用户输入的文字合成为音频。通过音色选择、自定义音量、语速，为企业和个人提供个性化的发音服务。该接口的使用

来自：帮助中心

查看更多 →
语音交互服务使用简介

述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本，同时也支持通过调用语音合成接口将文本转换成逼真的语音等。适用场景有语音客服质检、会议记录、语音短消息、有声读物、电话回访等。调用API接口需要具备一定的编程开发能力，返回的结果为JSON格式，用户需要通过编程来处理识别结果。

来自：帮助中心

查看更多 →
上传语音通知的文字转语音模板文件（createVoiceTemplate）

上传语音通知的文字转语音模板文件（createVoiceTemplate）场景描述上传语音通知的文字转语音模板文件。接口方法 POST 接口URI https:// 域名 /apiaccess/rest/cc-management/v1/createVoiceTemplate，例如域名是service

来自：帮助中心

查看更多 →
放音

要自定义。语音提示：当前支持“语音”、“文字转语音”、“视频”和“变量音”四种类型的语音提示。通过单击语音类型前的单选按钮可以选择对应的语音类型。语音：wav格式语音文件。目前UAP仅支持8khz * 8bit的wav 格式语音文件。文字转语音：通过文字转语音方式生成的 TTS 放音文件

来自：帮助中心

查看更多 →
是否支持aac格式的语音文件转文字

是否支持aac格式的语音文件转文字一句话识别和录音文件识别以及实时语音识别均可实现语音转文字，一句话识别支持aac格式，录音文件识别和实时语音识别不支持aac格式。父主题：产品咨询类

来自：帮助中心

查看更多 →
应用场景

应用场景语音客服质检识别客服、客户的语音，转换为文本。进一步通过文本检索，检查有没有违规、敏感词、电话号码等信息。会议记录对会议记录的音频文件，进行快速的识别，转化成文字，方便进行会议记录。语音短消息通过语音发送或者接收短消息时，将音频短消息转文字，提升阅读效率和交互体验。

来自：帮助中心

查看更多 →
放音

要自定义。语音提示：当前支持“语音”、“文字转语音”、“视频”和“变量音”四种类型的语音提示。通过单击语音类型前的单选按钮可以选择对应的语音类型。语音：wav格式语音文件。目前UAP仅支持8khz * 8bit的wav 格式语音文件。文字转语音：通过文字转语音方式生成的TTS放音文件

来自：帮助中心

查看更多 →
开始识别

支持采样率为8k的中文普通话语音识别，采用新一代端到端识别算法，识别准确率更高。区域支持cn-east-3和cn-north-4（强烈推荐使用）。不支持max_seconds参数，自动通过静音判断一句话结束与否。 chinese_16k_general 支持采样率为16k的中文普通话语音识别，

来自：帮助中心

查看更多 →
SDK简介

SDK简介语音交互概述语音交互服务（Speech Interaction Service，简称SIS）是一种人机交互方式，用户通过实时访问和调用API获取语音交互结果。支持用户通过语音识别功能，将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本，同时也支持通过语音合成功

来自：帮助中心

查看更多 →
录音文件识别

，详见API参考文档中的“audio_format取值范围”。语音时长不超过5小时，文件大小不超过300M，用户的识别任务在6小时内完成并返回识别结果，识别结果保存72小时（从转写完成的时间算起）。支持中文普通话、四川话识别。父主题：约束与限制

来自：帮助中心

查看更多 →
实时语音识别

实时语音识别支持“华北-北京四”、“华东-上海一”区域。当前服务仅支持北京和上海区域，后续会陆续上线其他区域。华北-北京四，推荐的区域，支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。华东-上海一，推荐的区域，支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。

来自：帮助中心

查看更多 →
一句话识别

当前服务仅支持北京和上海区域，后续会陆续上线其他区域。华北-北京四，推荐的区域，支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。华东-上海一，推荐的区域，支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。支持pcm16k16bit、pcm8k16bit、ulaw16k8

来自：帮助中心

查看更多 →
http接口

chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_common 支持采样率为16k的中文普通话语音识别。 english_16k_common 支持采样率为16k的英文语音识别，区域仅支持cn-east-3。格式仅支持wav，暂不支持add_punc

来自：帮助中心

查看更多 →
IVR请求变量（IVRREQUEST）

景此值为空。不超过32位。当前暂未使用。 IVRREQUEST.input 对话交互结果。语音识别结果或者文字输入：语音识别结果为语音转换成的文本；文字输入结果则直接为文字内容语音按键结果：按键值，如"1","201801"等 playover：放音结束 timeout：超时

来自：帮助中心

查看更多 →
提交录音文件识别任务

-north-4，cn-east-3，强烈推荐使用） chinese_8k_common（中文普通话语音识别） chinese_16k_conversation（会议场景的中文普通话语音识别） sichuan_8k_common（四川话识别，区域支持cn-north-4，cn-east-3）

来自：帮助中心

查看更多 →
文字识别

None 服务介绍文字识别 OCR 文字识别技术简介 01:46 文字识别技术简介快速入门文字识别 OCR 使用SDK 06:38 SDK使用指导文字识别 OCR 使用API 03:04 API使用指导问题排查文字识别 OCR 获取Token 时帐密报错 03:53 获取Token时帐密报错

来自：帮助中心

查看更多 →