更新时间:2024-12-16 GMT+08:00
分享

GPU函数概述

Serverless GPU是一种高度灵活、高效利用、按需分配GPU计算资源的新兴云计算服务。GPU能力Serverless化,通过提供一种按需分配的GPU计算资源,在一定范围内有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文将介绍Serverless GPU的详细功能和优势。

传统GPU长驻使用方式存在许多问题,例如,需要提前规划好资源需求并容易造成资源浪费。而Serverless GPU则提供了一种更加灵活的方式来利用GPU计算资源,用户只需选择合适的GPU型号和计算资源规模,就可以帮助用户有效地解决GPU长驻使用方式导致的资源浪费、高成本、低弹性等问题,为用户提供更加便捷、高效的GPU计算服务,有效承载AI模型推理、AI模型训练、音视频加速生产、图形图像加速等加速工作负载。

GPU函数主要使用于:仿真、模拟、科学计算、音视频、AI和图像处理等场景下,使用GPU硬件加速,从而提高业务处理效率。

表1 GPU函数规格

卡型

vGPU 显存(GB)

vGPU 算力(卡)

特点描述

NVIDIA-T4

1~16

取值说明:必须是整数。

说明:由系统自动分配,无需手动配置

T4是一款独特的GPU产品,专为AI推理工作负载而设计,如处理视频,语音,搜索引擎和图像的神经网络。T4配备16GB GDDR6,GPU中集成320个Turing Tensor Core和2560个Turing CUDA Core,这款全新GPU具有突破性的性能,以及FP32/FP16/INT8/INT4等多种精度的运算能力,FP16的峰值性能为65T,INT8为130T,INT4为260T。

图1 GPU云产品选型决策指引
  • 目前该功能仅支持华东-上海一。
  • GPU函数不支持的网段:192.168.64.0/18,192.168.128.0/18,10.192.64.0/18,10.192.128.0/18。

应用场景一:准实时推理场景

特征

在准实时推理应用场景中,工作负载具有以下一个或多个特征:

  • 调用稀疏

    日均调用几次到几万次,日均GPU实际使用时长远低于6~10小时,GPU存在大量闲置。

  • 单次处理耗时长

    准实时推理业务的处理耗时一般在秒级~分钟级。例如,典型的CV任务处于秒级别,典型的视频处理和AIGC场景均处于分钟级别。

  • 容忍冷启动

    业务可以容忍GPU冷启动耗时,或者业务流量波形对应的冷启动概率低。

功能优势

函数计算为准实时推理工作负载提供以下功能优势:

  • 原生Serverless使用方式

    函数计算平台默认提供的按量GPU实例使用方式,会自动管理GPU计算资源。根据业务的请求数量,自动弹性GPU实例,最低0个实例,最大可配置实例数量。

  • 规格最优

    函数计算平台提供的GPU实例规格,根据业务需求,选择卡型并配置使用的显存和内存的大小,为您提供最贴合业务的实例规格。

  • 成本最优

    函数计算平台提供的按量付费能力,对于低GPU资源利用率的工作负载,降本幅度可达70%以上。

应用场景二:实时推理场景

特征

在实时推理应用场景中,工作负载具有低延迟特征,即单次请求的处理时效性要求高,RT(Response Time)延迟要求严格,90%的长尾延时普遍在百毫秒级别。

功能优势

函数计算为实时推理工作负载提供以下功能优势:

  • 预留GPU实例

    函数计算平台提供了默认的按量GPU实例之外的另一种GPU使用方式——预留GPU实例。如果您希望消除冷启动延时的影响,满足实时推理业务低延迟响应的要求,可以通过配置预留GPU实例来实现。更多关于预留模式的信息,请参见为函数配置预留实例

  • 服务质量优先,服务成本次优

    预留GPU实例的计费周期不同于按量GPU实例,预留GPU实例是以实例存活生命周期进行计费,而不考虑实例的活跃与闲置(不按请求计费)。因此,相较于按量GPU实例,总体使用成本较高,但相较于长期自建GPU集群,降本幅度达50%以上。

  • 规格最优

    函数计算平台提供的GPU实例规格,允许您根据自己的工作负载选择不同的卡型,独立配置GPU/MEM。最小GPU规格小至1 GB显存/算力,将为您提供最贴合业务的实例规格。

  • 突发流量支撑

    函数计算平台提供充足的GPU资源供给,当业务遭遇突发流量时,函数计算将以秒级弹性供给海量GPU算力资源,避免因GPU算力供给不足、GPU算力弹性滞后导致的业务受损。

应用场景三:离线异步任务场景

特征

在离线异步应用场景中,工作负载具有以下一个或多个特征:

  • 执行时间长

    业务的处理耗时一般在分钟~小时级,Response Time不敏感。

  • 提交后立即返回

    在触发调用后立即得到返回,从而不因长耗时处理阻塞业务主逻辑的执行。

  • 实时感知任务状态

  • 并行处理

    离线GPU任务需要处理大量数据,对GPU资源供给要求高,通过API调用并行运行加快处理速度。

  • 数据源集成

    离线GPU任务对数据源的需求多种多样,处理过程中需要与多种存储产品(例如对象存储OBS)和多种消息产品(例如消息队列)进行频繁交互。

功能优势

函数计算为离线异步应用类工作负载提供以下功能优势:

  • 业务架构简化

    对于长耗时,采用异步处理,提高系统响应速度、资源利用率和可用性。

  • 充足的GPU资源供给

    函数计算平台提供充足的GPU资源供给,适合忙闲流量分明(长时空闲、短时繁忙)、忙闲流量不可预知的离线业务。

  • 数据源集成

    函数计算支持多种数据源触发方式,例如对象存储OBS、消息队列等。

函数模式

GPU函数均支持两种函数模式:按量模式和预留模式,详情请参见为函数配置预留实例

相关文档