文档首页/ 函数工作流 FunctionGraph/ 用户指南/ GPU函数管理/ Serverless GPU使用介绍/ 应用场景/ 实时推理场景

更新时间：2024-05-10 GMT+08:00

查看PDF

实时推理场景

特征

在实时推理应用场景中，工作负载具有以下一个或多个特征：

低延迟
单次请求的处理时效性要求高，RT（Response Time）延迟要求严格，90%的长尾延时普遍在百毫秒级别。

功能优势

函数计算为实时推理工作负载提供以下功能优势：

预留GPU实例
函数计算平台提供了默认的按量GPU实例之外的另一种GPU使用方式——预留GPU实例。如果您希望消除冷启动延时的影响，满足实时推理业务低延迟响应的要求，可以通过配置预留GPU实例来实现。更多关于预留模式的信息，请参见预留实例管理。
服务质量优先，服务成本次优
预留GPU实例的计费周期不同于按量GPU实例，预留GPU实例是以实例存活生命周期进行计费，而不考虑实例的活跃与闲置（不按请求计费）。因此，相较于按量GPU实例，总体使用成本较高，但相较于长期自建GPU集群，降本幅度达50%以上。
规格最优
函数计算平台提供的GPU实例规格，允许您根据自己的工作负载选择不同的卡型，独立配置GPU/MEM。最小GPU规格小至1 GB显存/算力，将为您提供最贴合业务的实例规格。
突发流量支撑
函数计算平台提供充足的GPU资源供给，当业务遭遇突发流量时，函数计算将以秒级弹性供给海量GPU算力资源，避免因GPU算力供给不足、GPU算力弹性滞后导致的业务受损。

父主题： 应用场景

上一篇：准实时推理场景

下一篇：离线异步任务场景

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问