深度学习gpu利用率低显存高_GPU故障处理-华为云

GPU故障处理

执行cat /proc/xgpu/{GPU卡序号}/meminfo，注意替换命令中的{GPU卡序号}为步骤2获取的GPU卡序号，观测GPU虚拟化的可用显存。比较步骤2和步骤3的可用显存。由于GPU厂商的驱动程序，本身就会占用一定量的物理显存，量级在300MB左右，这属于正常现象。例如Tesla

来自：帮助中心

查看更多 →
什么是云容器引擎

弹性伸缩：支持工作负载和节点的弹性伸缩，可以根据业务需求和策略，经济地自动调整弹性计算资源的管理服务。服务治理：深度集成应用服务网格，提供开箱即用的应用服务网格流量治理能力，用户无需修改代码，即可实现灰度发布、流量治理和流量监控能力。容器运维：深度集成容器智能分析，可实时监控应用及资源，支持采集、管理、分析日

来自：帮助中心

查看更多 →
使用GPU虚拟化

init容器不支持使用GPU虚拟化资源。 GPU虚拟化支持显存隔离、显存与算力隔离两种隔离模式。单个GPU卡仅支持调度同一种隔离模式的工作负载。使用GPU虚拟化后，不支持使用Autoscaler插件自动扩缩容GPU虚拟化节点。 XGPU服务的隔离功能不支持以UVM的方式申请显存，即调用CUDA

来自：帮助中心

查看更多 →
显存溢出错误

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

来自：帮助中心

查看更多 →
显存溢出错误

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

来自：帮助中心

查看更多 →
显存溢出错误

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

来自：帮助中心

查看更多 →
显存溢出错误

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

来自：帮助中心

查看更多 →
显存溢出错误

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

来自：帮助中心

查看更多 →
调度算法

preempt true/false false 允许 CCE Standard/ CCE Turbo 开启抢占调度后，在集群资源不足的场景，高优先级作业将会驱逐低优先级作业，获取资源运行抢占能力与pod延迟创建能力不可同时开启资源碎片最小化调度将Pod调度到资源使用较高的节点（尽量不往空白节点分配），以减少资源碎片。

来自：帮助中心

查看更多 →
应用GPU资源调度方式

应用GPU资源调度方式 IEF支持多应用共享的方式使用GPU显卡。 IEF支持单个应用使用多个GPU显卡。 GPU资源调度基于GPU显存容量，调度采用GPU显存预分配方式而非实时GPU显存资源。当应用需要使用的GPU显存资源小于单个GPU卡显存时，支持以共享方式进行资源调度，对

来自：帮助中心

查看更多 →
使用dcgm-exporter监控GPU指标

使用dcgm-exporter监控GPU指标应用场景集群中包含GPU节点时，需要了解GPU应用使用节点GPU资源的情况，例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，或者根据GPU指标设置告警规则。本文基于开源Prometheus和DCGM

来自：帮助中心

查看更多 →
创建Notebook实例

rBoard可视化功能完成对训练输出的分析。 PFS是一种经过优化的高性能对象存储文件系统，存储成本低，吞吐量大，能够快速处理高性能计算（HPC）工作负载。在需要使用对象存储服务场景下，推荐使用PFS挂载。说明：建议上传时按照128MB或者64MB打包或者切分，使用时边下载边

来自：帮助中心

查看更多 →
如何提升训练效率，同时减少与OBS的交互？

如何提升训练效率，同时减少与OBS的交互？场景描述在使用ModelArts进行自定义深度学习训练时，训练数据通常存储在对象存储服务（OBS）中，且训练数据较大时（如200GB以上），每次都需要使用GPU资源池进行训练，且训练效率低。希望提升训练效率，同时减少与对象存储OBS 的交互。可通过如下方式进行调整优化。

来自：帮助中心

查看更多 →
XGPU视图

节点-XGPU设备显存分配量字节每个节点上的GPU虚拟化设备显存总量 GPU卡-XGPU设备显存使用率百分比每张GPU卡上的GPU虚拟化设备显存使用率计算公式：显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量字节每张GPU卡上的GPU虚拟化设备的显存总量

来自：帮助中心

查看更多 →
基于GPU监控指标的工作负载弹性伸缩配置

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

来自：帮助中心

查看更多 →
异构资源配置

异构资源配置 GPU配置 GPU虚拟化 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高

来自：帮助中心

查看更多 →
XGPU算力调度示例

否开启算力隔离，GPU_CONTAINER_QUOTA_PERCENT为0的所有容器共享GPU的空闲算力。混合调度策略不支持高优先级容器。权重弱调度（policy=6）权重弱调度表示按照每个容器的算力比例为容器分配时间片，隔离性弱于权重抢占调度。XGPU服务会从算力单元1开

来自：帮助中心

查看更多 →
CCE AI套件（NVIDIA GPU）

GPU卡 GPU时钟频率 cce_gpu_memory_clock GPU卡 GPU显存频率 cce_gpu_graphics_clock GPU卡 GPU图形处理器频率 cce_gpu_video_clock GPU卡 GPU视频处理器频率物理状态数据 cce_gpu_temperature

来自：帮助中心

查看更多 →
方案概述

创建一个对象存储服务 OBS桶，用于存储训练数据。创建一个弹性文件服务 SFS Turbo，与OBS联动，用于给ModelArts提供共享文件存储服务。方案优势训练加速高速组网架构，提升传输带宽；分布式高速缓存，快速访问数据；并行传输，提高文件读取速率。高资源利用率存算分离

来自：帮助中心

查看更多 →
GPT-2基于Server适配PyTorch GPU的训练推理指导

Megatron-DeepSpeed是一个基于PyTorch的深度学习模型训练框架。它结合了两个强大的工具：Megatron-LM和DeepSpeed，可在具有分布式计算能力的系统上进行训练，并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。 M

来自：帮助中心

查看更多 →
基础指标：IEF指标

千字节/秒（kB/s） GPU aom_node_gpu_memory_free_megabytes gpuMemCapacity 显存容量该指标用于统计测量对象的显存容量。 ≥0 兆字节（MB） aom_node_gpu_memory_usage gpuMemUsage 显存使用率该指

来自：帮助中心

查看更多 →