更新时间:2026-06-26 GMT+08:00
分享

方案概述

应用场景

Xinference 是一款基于大语言模型的开源框架。本方案在此基础上进行功能扩展,对接华为云 SIS 语音服务,实现语音转文本(ASR)和文本转语音(TTS)能力。语音识别脚本调用华为云 SIS 接口,将用户语音实时转写为文本,作为 Xinference 大模型的输入;语音合成脚本则将模型生成的回复文本合成为语音输出。核心是打造一个"能听会说"的智能对话系统,让用户无需键盘输入,直接用语音即可完成交互,获得流畅自然的语音回复体验。

方案架构

该解决方案以Xinference作为框架,SIS语音服务作为底层语音调用,帮助您快速部署语音交互服务服务。您可以根据实际情况,选择部署语音转文本(SenseVoiceSmall)和文本转语音服务(CosyVoice-300M)。

图1 方案架构图

该解决方案将会部署如下资源:

方案优势

  • 开箱即用

    无需额外开发,通过两个扩展脚本即可完成华为云 SIS 语音服务的对接配置,快速为 Xinference 赋予语音输入输出能力。

  • 交互便捷

    用户无需键盘输入,通过语音即可完成对话,系统回复也以语音形式输出,实现真正的“解放双手”。

  • 安全可控

    语音数据通过华为云 SIS 服务进行加密传输和处理,保障数据安全;脚本与 Xinference 间仅传递转写后的文本与合成音频,不存储用户语音数据,确保使用过程合规可控。

  • 识别精准

    依托华为云 SIS 先进的语音识别与合成技术,支持多种方言和语言,具备高识别准确率和自然的合成音质,能够适应复杂环境下的语音交互需求。

  • 易于集成

    两个扩展脚本轻量独立,与 Xinference 松耦合,可灵活部署;支持快速接入不同的语音服务商,能够快速嵌入到Dify等应用,扩展性强。

约束与限制

  • 该解决方案部署前,需注册华为账号并开通华为云,完成实名认证,且账号不能处于欠费或冻结状态。如果计费模式选择“包年包月”,请确保账户余额充足以便一键部署资源的时候可以自动支付;或者在一键部署的过程进入费用中心,找到“待支付订单”并手动完成支付。
  • 如果选用IAM委托权限部署资源,请确保使用的华为云账号有IAM的足够权限,具体请参考创建rf_admin_trust委托;如果使用华为主账号或admin用户组下的IAM子账户可不选委托,将采用当前登录用户的权限进行部署。

相关文档