更新时间:2024-12-05 GMT+08:00
分享

XGPU共享技术概述

XGPU共享技术是华为云基于内核虚拟GPU开发的共享技术。XGPU服务可以隔离GPU资源,实现多个容器共用一张显卡,从而实现业务的安全隔离,提高GPU硬件资源的利用率并降低使用成本。

XGPU共享技术架构

XGPU通过自研的内核驱动为容器提供虚拟的GPU设备,在保证性能的前提下隔离显存和算力,为充分利用GPU硬件资源进行训练和推理提供有效保障。您可以通过命令方便地配置容器内的虚拟GPU设备。

图1 XGPU共享技术架构图

产品优势

  • 节约成本

    随着显卡技术的不断发展,单张GPU卡的算力越来越强,同时价格也越来越高。但在很多的业务场景下,一个AI应用并不需要一整张的GPU卡。XGPU的出现让多个容器共享一张GPU卡,从而实现业务的安全隔离,提升GPU利用率,节约用户成本。

  • 可灵活分配资源

    XGPU实现了物理GPU的资源任意划分,您可以按照不同比例灵活配置。

    • 支持按照显存和算力两个维度划分,您可以根据需要灵活分配。

    • XGPU支持只隔离显存而不隔离算力的策略,同时也支持基于权重的算力分配策略。算力支持最小1%粒度的划分,推荐最小算力不低于4%。
  • 兼容性好

    不仅适配标准的Docker和Containerd工作方式,而且兼容Kubernetes工作方式。

  • 操作简单

    无需重编译AI应用,运行时无需替换CUDA库。

相关文档