本文导读

展开导读

文档首页/ 函数工作流 FunctionGraph/ 用户指南/ 创建函数/ 创建GPU函数/ GPU函数概述

GPU函数概述

更新时间：2025-05-07 GMT+08:00

查看PDF

Serverless GPU是一种高度灵活、高效利用、按需分配GPU计算资源的新兴云计算服务。GPU能力Serverless化，通过提供一种按需分配的GPU计算资源，在一定范围内有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文将介绍Serverless GPU的详细功能和优势。

传统GPU长驻使用方式存在许多问题，例如，需要提前规划好资源需求并容易造成资源浪费。而Serverless GPU则提供了一种更加灵活的方式来利用GPU计算资源，用户只需选择合适的GPU型号和计算资源规模，就可以帮助用户有效地解决GPU长驻使用方式导致的资源浪费、高成本、低弹性等问题，为用户提供更加便捷、高效的GPU计算服务，有效承载AI模型推理、AI模型训练、音视频加速生产、图形图像加速等加速工作负载。

GPU函数主要使用于：仿真、模拟、科学计算、音视频、AI和图像处理等场景下，使用GPU硬件加速，从而提高业务处理效率。

FunctionGraph的GPU函数最佳实践：使用FunctionGraph部署DeepSeek-R1蒸馏模型。

表1 GPU函数规格
卡型	vGPU 显存（GB）	vGPU 算力（卡）	特点描述
NVIDIA-T4	1~16 取值说明：必须是整数。	说明：由系统自动分配，无需手动配置	T4是一款独特的GPU产品，专为AI推理工作负载而设计，如处理视频，语音，搜索引擎和图像的神经网络。T4配备16GB GDDR6，GPU中集成320个Turing Tensor Core和2560个Turing CUDA Core，这款全新GPU具有突破性的性能，以及FP32/FP16/INT8/INT4等多种精度的运算能力，FP16的峰值性能为65T，INT8为130T，INT4为260T。

图1 GPU云产品选型决策指引
点击放大

说明：

GPU函数支持两种函数模式：按量模式和预留模式，详情请参见为函数配置预留实例。

约束与限制

目前该功能仅“华东-上海一”和“土耳其-伊斯坦布尔”区域支持，其中“土耳其-伊斯坦布尔”区域需提交工单开通白名单后支持。
GPU函数不支持的网段：192.168.64.0/18，192.168.128.0/18，10.192.64.0/18，10.192.128.0/18。

应用场景一：准实时推理场景

特征

在准实时推理应用场景中，工作负载具有以下一个或多个特征：

调用稀疏
 日均调用几次到几万次，日均GPU实际使用时长远低于6~10小时，GPU存在大量闲置。
单次处理耗时长
 准实时推理业务的处理耗时一般在秒级~分钟级。例如，典型的CV任务处于秒级别，典型的视频处理和AIGC场景均处于分钟级别。
容忍冷启动
 业务可以容忍GPU冷启动耗时，或者业务流量波形对应的冷启动概率低。

功能优势

函数计算为准实时推理工作负载提供以下功能优势：

原生Serverless使用方式
 函数计算平台默认提供的按量GPU实例使用方式，会自动管理GPU计算资源。根据业务的请求数量，自动弹性GPU实例，最低0个实例，最大可配置实例数量。
规格最优
 函数计算平台提供的GPU实例规格，根据业务需求，选择卡型并配置使用的显存和内存的大小，为您提供最贴合业务的实例规格。
成本最优
 函数计算平台提供的按量付费能力，对于低GPU资源利用率的工作负载，降本幅度可达70%以上。

应用场景二：实时推理场景

特征

在实时推理应用场景中，工作负载具有低延迟特征，即单次请求的处理时效性要求高，RT（Response Time）延迟要求严格，90%的长尾延时普遍在百毫秒级别。

功能优势

函数计算为实时推理工作负载提供以下功能优势：

预留GPU实例
 函数计算平台提供了默认的按量GPU实例之外的另一种GPU使用方式——预留GPU实例。如果您希望消除冷启动延时的影响，满足实时推理业务低延迟响应的要求，可以通过配置预留GPU实例来实现。更多关于预留模式的信息，请参见为函数配置预留实例。
服务质量优先，服务成本次优
 预留GPU实例的计费周期不同于按量GPU实例，预留GPU实例是以实例存活生命周期进行计费，而不考虑实例的活跃与闲置（不按请求计费）。因此，相较于按量GPU实例，总体使用成本较高，但相较于长期自建GPU集群，降本幅度达50%以上。
规格最优
 函数计算平台提供的GPU实例规格，允许您根据自己的工作负载选择不同的卡型，独立配置GPU/MEM。最小GPU规格小至1 GB显存/算力，将为您提供最贴合业务的实例规格。
突发流量支撑
 函数计算平台提供充足的GPU资源供给，当业务遭遇突发流量时，函数计算将以秒级弹性供给海量GPU算力资源，避免因GPU算力供给不足、GPU算力弹性滞后导致的业务受损。

应用场景三：离线异步任务场景

特征

在离线异步应用场景中，工作负载具有以下一个或多个特征：

执行时间长
 业务的处理耗时一般在分钟~小时级，Response Time不敏感。
提交后立即返回
 在触发调用后立即得到返回，从而不因长耗时处理阻塞业务主逻辑的执行。
实时感知任务状态
 无
并行处理
 离线GPU任务需要处理大量数据，对GPU资源供给要求高，通过API调用并行运行加快处理速度。
数据源集成
 离线GPU任务对数据源的需求多种多样，处理过程中需要与多种存储产品（例如对象存储OBS）和多种消息产品（例如消息队列）进行频繁交互。

功能优势

函数计算为离线异步应用类工作负载提供以下功能优势：

业务架构简化
 对于长耗时，采用异步处理，提高系统响应速度、资源利用率和可用性。
充足的GPU资源供给
 函数计算平台提供充足的GPU资源供给，适合忙闲流量分明（长时空闲、短时繁忙）、忙闲流量不可预知的离线业务。
数据源集成
 函数计算支持多种数据源触发方式，例如对象存储OBS、消息队列等。

父主题：创建GPU函数

上一篇：创建GPU函数

下一篇：自定义镜像方式创建GPU函数

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

GPU函数概述

约束与限制

应用场景一：准实时推理场景

应用场景二：实时推理场景

应用场景三：离线异步任务场景

相关文档

意见反馈

文档内容是否对您有帮助？

文档反馈