实时推理场景
特征
在实时推理应用场景中,工作负载具有以下一个或多个特征:
- 低延迟
单次请求的处理时效性要求高,RT(Response Time)延迟要求严格,90%的长尾延时普遍在百毫秒级别。
功能优势
函数计算为实时推理工作负载提供以下功能优势:
- 预留GPU实例
函数计算平台提供了默认的按量GPU实例之外的另一种GPU使用方式——预留GPU实例。如果您希望消除冷启动延时的影响,满足实时推理业务低延迟响应的要求,可以通过配置预留GPU实例来实现。更多关于预留模式的信息,请参见预留实例管理。
- 服务质量优先,服务成本次优
预留GPU实例的计费周期不同于按量GPU实例,预留GPU实例是以实例存活生命周期进行计费,而不考虑实例的活跃与闲置(不按请求计费)。因此,相较于按量GPU实例,总体使用成本较高,但相较于长期自建GPU集群,降本幅度达50%以上。
- 规格最优
函数计算平台提供的GPU实例规格,允许您根据自己的工作负载选择不同的卡型,独立配置GPU/MEM。最小GPU规格小至1 GB显存/算力,将为您提供最贴合业务的实例规格。
- 突发流量支撑
函数计算平台提供充足的GPU资源供给,当业务遭遇突发流量时,函数计算将以秒级弹性供给海量GPU算力资源,避免因GPU算力供给不足、GPU算力弹性滞后导致的业务受损。