更新时间:2024-01-18 GMT+08:00
分享

准实时推理场景

本章节介绍什么是准实时推理场景,以及如何使用GPU按量实例和如何基于GPU按量实例构建使用成本较低的准实时推理服务。

特征

在准实时推理应用场景中,工作负载具有以下一个或多个特征:

  • 调用稀疏

    日均调用几次到几万次,日均GPU实际使用时长远低于6~10小时,GPU存在大量闲置。

  • 单次处理耗时长

    准实时推理业务的处理耗时一般在秒级~分钟级。例如,典型的CV任务处于秒级别,典型的视频处理和AIGC场景均处于分钟级别。

  • 容忍冷启动

    业务可以容忍GPU冷启动耗时,或者业务流量波形对应的冷启动概率低。

功能优势

函数计算为准实时推理工作负载提供以下功能优势:

  • 原生Serverless使用方式

    函数计算平台默认提供的按量GPU实例使用方式,会自动管理GPU计算资源。根据业务的请求数量,自动弹性GPU实例,最低0个实例,最大可配置实例数量。

  • 规格最优

    函数计算平台提供的GPU实例规格,根据业务需求,选择卡型并配置使用的显存和内存的大小,为您提供最贴合业务的实例规格。

  • 成本最优

    函数计算平台提供的按量付费能力,对于低GPU资源利用率的工作负载,降本幅度可达70%以上。

相关文档