文档首页/ 语音交互服务 SIS/ 最新动态

最新动态

更新时间：2025/10/30 GMT+08:00

本文介绍了语音交互服务 SIS各特性版本的功能发布和对应的文档动态，欢迎体验。

2024年01月

序号	功能名称	功能描述	阶段	相关文档
1	SIS北京四、上海一region支持热词3.0	通过普通热词、自定义权重热词、强制替换热词提供更灵活的热词配置普通热词：用于常见的命名实体自定义权重热词：调节热词偏置力度，提升热词召回率强制替换热词：用于罕见词语、自定义格式输出	商用	用户指南

序号

功能名称

功能描述

阶段

相关文档

SIS北京四、上海一region支持热词3.0

通过普通热词、自定义权重热词、强制替换热词提供更灵活的热词配置

普通热词：用于常见的命名实体

自定义权重热词：调节热词偏置力度，提升热词召回率

强制替换热词：用于罕见词语、自定义格式输出

商用

用户指南

2023年09月

序号	功能名称	功能描述	阶段	相关文档
1	语音交互服务支持IOS SDK	语音交互服务支持IOS SDK。	商用	iOS SDK

2023年08月

序号	功能名称	功能描述	阶段	相关文档
1	录音文件识别支持EPS，支持企业分账功能	录音文件识别支持通过企业项目管理（EPS）对不同用户组和用户的资源使用进行分账。企业可以根据组织架构规划不同的企业项目，并为每个企业项目设置拥有不同权限的用户组和用户，多个企业项目之间相互独立，资源分开结算。	商用	录音文件识别接口

2023年06月

序号	功能名称	功能描述	阶段	相关文档
1	实时语音识别增加英文模型	实时语音识别增加英文模型，支持英语实时语音识别。	商用	功能介绍

2023年03月

序号	功能名称	功能描述	阶段	相关文档
1	语音交互服务CPP SDK支持Linux版本	实时语音识别CPP版本SDK支持linux	商用	SDK参考

2023年01月

序号	功能名称	功能描述	阶段	相关文档
1	语音合成支持SSML标记语言	语音合成服务支持使用SSML控制断句分词方式、发音、速度、停顿、声调和音量特征，相比文本输入提供更好的操作灵活性。	商用	SSML标记语言介绍

2022年11月

序号	功能名称	功能描述	阶段	相关文档
1	语音合成API上线知性女生、沉稳男生、利落纯英文等多种音色	语音合成API支持将用户输入的文字合成为音频。通过音色选择、自定义音量、语速，为企业和个人提供个性化的发音服务。	商用	语音合成

2022年10月

序号	功能名称	功能描述	阶段	相关文档
1	录音文件识别支持四川话识别	录音文件识别API可以通过将property参数设置为sichuan_8k_common实现四川话识别，支持cn-north-4，cn-east-3区域。	商用	录音文件识别

2022年08月

序号	功能名称	功能描述	阶段	相关文档
1	实时语音合成支持Python、JAVA SDK	实时语音合成提供实时流式语音合成。用户每次建立连接，发送待合成文本，服务端将合成结果响应给用户。	商用	SDK参考

2022年07月

序号	功能名称	功能描述	阶段	相关文档
1	实时语音识别支持C++ SDK	实时语音识别上线C++ SDK	商用	SDK参考

2022年06月

序号	功能名称	功能描述	阶段	相关文档
1	实时语音合成支持温柔女声、朝气男声精品发音人	实时语音合成API，支持合成温柔女声、朝气男声。	商用	实时语音合成

2022年05月

序号	功能名称	功能描述	阶段	相关文档
1	语音合成新增朝气男声发音人	语音合成API支持合成气男声发音人。	商用	语音合成

2022年02月

序号	功能名称	功能描述	阶段	相关文档
1	录音文件识别API输入参数兼容公网访问的url	录音文件识别约束增加音频转写时长参考。同时，输入参数兼容公网访问的url。	商用	录音文件识别

2021年04月

序号	功能名称	功能描述	阶段	相关文档
1	录音文件识别支持银行、保险领域文件识别	录音文件识别支持银行领域（chinese_8k_bank）和保险领域（chinese_8k_insurance）的文件识别。实时语音转写支持采样率为16k的庭审会议（chinese_16k_court）实时语音转写和采样率为16k的IT会议（chinese_16k_it）实时语音转写。	商用	录音文件识别实时语音转写
2	一句话识别、录音文件识别和实时语音转写支持输出分词结果	将语音识别结果中输出分词结果信息。当取值设置为 yes 时，返回的识别结果中除了一句话的文字，同时将这句话进行分词，并且给出每个分词起始和结束的时间，这样就可以进行进一步的操作，例如建立倒排索引，以便于进行多媒体信息检索等。	商用	一句话识别录音文件识别实时语音转写

序号

功能名称

功能描述

阶段

相关文档

录音文件识别支持银行、保险领域文件识别

录音文件识别支持银行领域（chinese_8k_bank）和保险领域（chinese_8k_insurance）的文件识别。实时语音转写支持采样率为16k的庭审会议（chinese_16k_court）实时语音转写和采样率为16k的IT会议（chinese_16k_it）实时语音转写。

商用

录音文件识别

实时语音转写

一句话识别、录音文件识别和实时语音转写支持输出分词结果

将语音识别结果中输出分词结果信息。当取值设置为 yes 时，返回的识别结果中除了一句话的文字，同时将这句话进行分词，并且给出每个分词起始和结束的时间，这样就可以进行进一步的操作，例如建立倒排索引，以便于进行多媒体信息检索等。

商用

一句话识别

录音文件识别

实时语音转写

2021年03月

序号	功能名称	功能描述	阶段	相关文档
1	一句话识别和实时语音转写支持方言识别（四川话、粤语、上海话）	新增方言（四川话、粤语、上海话）识别。具体如下： shanghai_16k_common：支持采样率为16k的上海话方言识别。 sichuan_16k_common：支持采样率为16k的中文普通话与四川话方言识别。 cantonese_16k_common：支持采样率为16k的粤语方言识别。	商用	一句话识别实时语音转写

序号

功能名称

功能描述

阶段

相关文档

一句话识别和实时语音转写支持方言识别（四川话、粤语、上海话）

新增方言（四川话、粤语、上海话）识别。具体如下： shanghai_16k_common：支持采样率为16k的上海话方言识别。 sichuan_16k_common：支持采样率为16k的中文普通话与四川话方言识别。 cantonese_16k_common：支持采样率为16k的粤语方言识别。

商用

一句话识别

实时语音转写

2020年08月

序号	功能名称	功能描述	阶段	相关文档
1	SIS上线语音合成精品发音库	精品发音库：语音合成发音人分为普通发音人和精品发音人。 chinese_16k_general ：支持采样率为16k的中文普通话语音识别，同时可识别一些简单的方言。	商用	定制语音合成一句话识别
2	新增定制语音合成	定制语音合成：将文本转换成逼真语音，通过音色选择、自定义音量、语速，为企业和个人提供个性化的发音服务。	商用	定制语音合成

序号

功能名称

功能描述

阶段

相关文档

SIS上线语音合成精品发音库

精品发音库：语音合成发音人分为普通发音人和精品发音人。 chinese_16k_general ：支持采样率为16k的中文普通话语音识别，同时可识别一些简单的方言。

商用

定制语音合成

一句话识别

新增定制语音合成

定制语音合成：将文本转换成逼真语音，通过音色选择、自定义音量、语速，为企业和个人提供个性化的发音服务。

商用

定制语音合成

2020年07月

序号	功能名称	功能描述	阶段	相关文档
1	SIS支持识别语音中阿拉伯数字	上线digit_norm参数，表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。	商用	一句话识别录音文件识别开始识别

序号

功能名称

功能描述

阶段

相关文档

SIS支持识别语音中阿拉伯数字

上线digit_norm参数，表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。

商用

一句话识别

录音文件识别

开始识别

2019年08月

序号	功能名称	功能描述	阶段	相关文档
1	新增一句话识别、录音文件识别	一句话识别：用于短语音的同步识别。录音文件识别：用于识别长录音文件。	商用	一句话识别录音文件识别

序号

功能名称

功能描述

阶段

相关文档

新增一句话识别、录音文件识别

一句话识别：用于短语音的同步识别。录音文件识别：用于识别长录音文件。

商用

一句话识别

录音文件识别

2019年07月

序号	功能名称	功能描述	阶段	相关文档
1	语音交互服务上线	语音交互服务（Speech Interaction Service，简称SIS）是一种人机交互方式，以开放API（Application Programming Interface，应用程序编程接口）的方式提供给用户，用户通过实时访问和调用API获取语音交互结果。	商用	产品介绍快速入门 API参考

序号

功能名称

功能描述

阶段

相关文档

语音交互服务上线

语音交互服务（Speech Interaction Service，简称SIS）是一种人机交互方式，以开放API（Application Programming Interface，应用程序编程接口）的方式提供给用户，用户通过实时访问和调用API获取语音交互结果。

商用

产品介绍

快速入门

API参考