更新时间:2024-04-26 GMT+08:00
分享

方案概述

应用场景

该解决方案基于华为云语音交互服务语音识别构建,可自动将用户上传到对象存储服务的wav语音文件转化为文字,并将结果存放到指定OBS桶。该方案可以将用户上传在OBS的语音文件识别成可编辑的文本,支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方言(四川话、粤语和上海话)的识别。适用于如下场景:识别客服、客户的语音,进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录等场景。

方案架构

该解决方案部署架构如下图所示:
图1 方案架构

部署该方案中需要使用的资源:

  • 创建2个对象存储服务OBS桶,一个用于用户上传和存储用户的语音文件;另一个用于存储语音识别结果,用户可以从该桶中获取结果并处理。
  • 函数工作流FunctionGraph,只需编写业务函数代码并设置运行的条件,即可以弹性、免运维、高可靠的方式运行。
  • 语音识别服务,将wav语音文件转化为文字。

方案优势

  • 高识别

    该方案基于深度学习技术,对特定领域场景的语音识别进行优化,识别率高。

  • 稳定可靠

    该方案成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。

  • 可定制化

    该方案针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。

约束与限制

  • 部署该解决方案前,您需注册华为账号并开通华为云,完成实名认证,且账号不能处于欠费或冻结状态,如使用包周期部署确保余额充足。
  • 部署该解决方案前,您需要按照准备工作完成相应服务开通及授权,上传的语音文件时长不超过30分钟,文件大小不超过100M

相关文档