数字内容生产线 MetaStudio
数字内容生产线 MetaStudio
- 最新动态
- 服务公告
- 产品介绍
- 产品彩页
- 快速入门
- 用户指南
- 最佳实践
-
API参考
- 使用前必读
- API概览
- 如何调用API
- 应用示例
- 资产管理
- 分身视频制作
- 分身视频直播
- 智能交互
- 分身形象制作管理
- 声音制作任务管理
- 语音合成管理
- 租户管理
- 附录
- 修订记录
- 服务端SDK参考
- 场景代码示例
- 常见问题
- 视频帮助
- 文档下载
- 通用参考
更新时间:2025-01-09 GMT+08:00
链接复制成功!
常见问题
智能交互SDK安装包里为什么有图片资源?
SDK里面包含图片资源,是因为智能交互的动效、背景可能需要图片资源才能展示更好的效果。所以智能交互Web SDK为了方便用户集成使用,会同时包含UI相关资源。
speechRecognized和semanticRecognized通知的流式返回有什么差异?
差异如下所示:
- speechRecognized的流式返回是覆盖式返回。后一条通知中的text字段值包含前一条通知的内容。例如:第一条通知的text值为“你吃”,第二条新识别了“饭了么”,则第二条text值为“你吃饭了么”。
- semanticRecognized的流式返回是分段式返回。后一条通知中的text字段值与前一条通知的内容是上下衔接关系。例如:第一条通知的text为“你吃”,第二条新返回了“饭了么”,则第二条text值为“饭了么”,需要将两条通知的text值拼接在一起才是完整的内容。
文本问答的用法
智能交互默认是语音问答,如需使用文本问答,需要切换模式。可以通过下述2种方式处理:
- 在开始对话时设置。使用startChat接口开启对话时,设置成文本问答模式,如下所示:
const { result } = await HwICSUiSdk.startChat({ interactionMode: 'TEXT' });
- 在对话过程中设置。如果已经调用startChat,且处于语音问答模式下,则可以调用interactionModeSwitch接口修改为文本问答模式,如下所示:
const { result } = await HwICSUiSdk.interactionModeSwitch({ interactionMode: 'TEXT' });
切换至文本问答模式后,就可以通过接口sendTextQuestion进行文本问答了。
数字人主动播报与文本问答的区别是什么?
智能交互同时支持数字人主动播报和文本问答两种能力,两者都是通过文字驱动数字人讲话。
区别如下所示:
- 主动播报:主动播报是直接将sendDrivenText接口传入的文本作为数字人播报内容,来驱动数字人讲话。
- 文本问答:文本问答是使用sendTextQuestion接口输入文本问题,将大模型返回内容作为数字人播报内容,而不是直接播报问题。
为什么要定制语音唤醒模型?
根据唤醒词定制的唤醒模型,可以提升唤醒词的准确率。
能否直接在本地修改唤醒词?
不行。模型和唤醒词是绑定的,不支持本地修改唤醒词。
集成WebSDK的网页加载时自动调用create接口创建数字人,但是后续的数字人播报为啥没有声音?
原因请参考媒体和Web Audio API 的自动播放指南,所以出现数字人没声音的问题时,建议按照下述步骤排查并做出相应处理。
父主题: Web SDK