准实时推理场景
本章节介绍什么是准实时推理场景,以及如何使用GPU按量实例和如何基于GPU按量实例构建使用成本较低的准实时推理服务。
特征
在准实时推理应用场景中,工作负载具有以下一个或多个特征:
- 调用稀疏
日均调用几次到几万次,日均GPU实际使用时长远低于6~10小时,GPU存在大量闲置。
- 单次处理耗时长
准实时推理业务的处理耗时一般在秒级~分钟级。例如,典型的CV任务处于秒级别,典型的视频处理和AIGC场景均处于分钟级别。
- 容忍冷启动
业务可以容忍GPU冷启动耗时,或者业务流量波形对应的冷启动概率低。
功能优势
函数计算为准实时推理工作负载提供以下功能优势:
- 原生Serverless使用方式
函数计算平台默认提供的按量GPU实例使用方式,会自动管理GPU计算资源。根据业务的请求数量,自动弹性GPU实例,最低0个实例,最大可配置实例数量。
- 规格最优
函数计算平台提供的GPU实例规格,根据业务需求,选择卡型并配置使用的显存和内存的大小,为您提供最贴合业务的实例规格。
- 成本最优
函数计算平台提供的按量付费能力,对于低GPU资源利用率的工作负载,降本幅度可达70%以上。