更新时间:2024-01-11 GMT+08:00
分享

安装GPU指标集成插件

操作场景

通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标,参见GPU指标

本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件:

约束与限制

  • 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些?
  • 支持的GPU加速型规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1。
  • 暂不支持CCE纳管后的GPU加速型实例。

前提条件

  • 已安装GPU驱动,未安装lspci工具的云服务器影响GPU掉卡事件的上报。

    如果您的弹性云服务器未安装GPU驱动,请参见GPU驱动概述安装GPU驱动。

    • 安装GPU驱动需使用默认路径。
    • GPU驱动安装完后,需重启GPU加速型实例,否则可能导致采集GPU指标及上报GPU事件失败。
    • GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。
  • 已安装lspci工具,未安装lspci工具的云服务器不支持采集GPU指标数据及上报事件。

    安装lspci工具的方法,请参见安装lspci工具

  • 确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。

操作步骤(单节点安装)

安装命令参见操作步骤,需要替换安装命令中,-t后的版本号为支持GPU采集的插件版本号。

操作步骤(多节点批量安装)

参见操作步骤,需要替换安装命令中,-t后的版本号为支持GPU采集的插件版本号。

安装lspci工具

  1. 登录弹性云服务器。
  2. 更新镜像源,获取安装依赖。

    wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh

    更多内容,请参见如何使用自动化工具配置华为云镜像源(x86_64和ARM)?

  3. 执行以下命令,安装lspci工具。
    • CentOS系统:

      yum install pciutils

    • Ubuntu系统:

      apt install pciutils

  4. 执行以下命令,查看安装结果。

    lspci -d 10de:

    图1 安装结果

    如果安装完lspci后,安装结果显示命令不存在,可通过重启云服务器来解决。

相关文档