文档首页/ 弹性云服务器 ECS/ 用户指南/ 使用CES监控ECS/ 异构类实例安装支持对应监控的CES Agent(Linux)
更新时间:2024-08-23 GMT+08:00
分享

异构类实例安装支持对应监控的CES Agent(Linux)

操作场景

监控与告警是保证异构云服务器(GPU加速型实例、AI加速型实例)高可靠性、高可用性和高性能的重要功能。

通过在异构类(例如,GPU加速型实例、AI加速型实例)的Linux实例上安装支持对应监控的CES Agent,可以为用户提供系统级、主动式、细颗粒度的监控,包含相关异构指标收集和系统事件上报。

当前支持的异构加速卡及对应的监控指标种类如下:

本章节介绍如何通过安装脚本为异构(GPU加速型、AI加速型)实例安装支持对应监控的CES Agent:

约束与限制

  • 仅支持Linux操作系统。
  • 使用私有镜像创建的云服务器需手动安装监控组件并安装驱动
  • 对于GPU监控:
    • 支持GPU监控的Linux公共镜像如表1所示。
      表1 支持GPU监控的Linux版本

      类型

      版本

      CentOS(64bit)

      7.6、7.9、8.2

      Ubuntu(64bit)

      16.04、18.04、20.04

      Huawei Cloud Euler(64bit)

      2.0

    • 支持GPU监控的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1。
  • 对于NPU监控:
    • 支持NPU监控的Linux公共镜像如所表2示。
      表2 支持NPU监控的Linux版本

      类型

      版本

      CentOS(64bit)

      • 7.6:Ai1s、Ai2、Kai1s、Kai2
      • 7.7-7.9:Ai2、Kai2

      Ubuntu(64bit)

      18.04

    • 支持NPU监控的规格:Ai1s, Ai2, Kai1s, Kai2。

前提条件

  • 已配置DNS和安全组,配置方法参考如何配置DNS和安全组?
  • 已配置委托,配置方法参考如何配置委托?
  • 实例已安装对应驱动。
    • GPU加速型实例:已安装GPU驱动。

      未安装GPU驱动的云服务器不支持采集GPU指标数据及上报事件。

      如果您的弹性云服务器未安装GPU驱动,可参见(推荐)自动安装GPU加速型ECS的GPU驱动(Linux)

    • AI加速型实例:已安装NPU驱动

      未安装NPU驱动的云服务器不支持采集NPU指标数据及上报事件。

      使用公共镜像创建的AI加速型实例默认已安装特定版本驱动,如果您使用私有镜像创建AI加速型实例,或者因其他原因需要安装驱动,请参考昇腾文档中心对应版本的《CANN软件安装指南》。

    • 安装驱动需使用默认路径。

      驱动安装完后,需重启实例,否则可能导致采集指标及上报事件失败。

    • 驱动正常安装后,最多10分钟将在控制台看到采集到的指标数据。
  • 已安装lspci工具,未安装lspci工具的云服务器影响GPU掉卡事件的上报。

    安装lspci工具的方法,请参见(可选)安装lspci工具

  • 确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。

操作步骤(单台ECS安装)

本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍单台ECS安装支持GPU监控的CES Agent的操作指导。

  1. 使用root用户,远程登录弹性云服务器。
  2. 执行以下命令,为单台ECS安装支持GPU监控的CES Agent。

    以“华北-北京四”为例,其余区域的安装脚本,请参见获取安装脚本

    cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

    其中,“cn-north-4”表示区域ID,“0.1.5”是uniagent版本号,“2.6.7.1”是telescope版本号。

    当显示如下内容,表示支持GPU监控的CES Agent安装成功。
    图1 支持GPU监控的CES Agent安装成功

操作步骤(多台ECS批量安装)

本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍多台ECS批量安装支持GPU监控的CES Agent的操作指导。

批量安装的多台ECS需要归属于同一个VPC。

  1. 使用root用户,远程登录其中一台弹性云服务器。
  2. 执行以下命令,为这一台ECS安装支持GPU监控的CES Agent。

    以“华北-北京四”为例,其余区域的安装脚本,请参见获取安装脚本

    cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

    其中,“cn-north-4”表示区域ID,“0.1.5”是uniagent版本号,“2.6.7.1”是telescope版本号。

    当支持GPU监控的CES Agent安装成功,且数据采集正常时,可以将此ECS作为跳板机,通过批量安装脚本依次为其他ECS批量安装支持GPU监控的CES Agent。

  3. 收集需要批量安装支持GPU监控的CES Agent的所有ECS的IP地址和root用户密码,以iplist.txt格式整理,并上传到ECS跳板机的/usr/local目录下。

    iplist.txt格式为“IP地址,root用户密码”,每个记录一行。

    示例如下所示(示例中abcd为root用户密码,请按实际值填写):

    192.168.1.1,abcd
    192.168.1.2,abcd
  4. 执行以下命令,为多台ECS批量安装支持GPU监控的CES Agent。

    以“华北-北京四”为例,其余区域的批量安装脚本,请参见获取安装脚本

    cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

    其中,cn-north-4是RegoinID,0.1.5是uniagent版本号,2.6.7.1是telescope版本号。

    当显示如下内容,表示支持GPU监控的CES Agent安装成功。
    图2 支持GPU监控的CES Agent安装成功

获取安装脚本

您可以通过执行以下命令,获取支持GPU监控和NPU监控的CES Agent的安装脚本。

表3 安装脚本的支持区域及获取方式

区域

安装脚本

华北-北京一

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

华北-北京四

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

华北-乌兰察布一

单台ECS安装:

cd /usr/local && curl -k -O https://obs.cn-north-9.myhuaweicloud.com/uniagent-cn-north-9/package/agent_install.sh && bash agent_install.sh -r cn-north-9 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://obs.cn-north-9.myhuaweicloud.com/uniagent-cn-north-9/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-9 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

华南-广州

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-south-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-south-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

华东-上海一

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-east-3 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-east-3 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

华东-上海二

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-east-2 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-east-2 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

西南-贵阳一

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

中国-香港

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

亚太-曼谷

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-2 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-2 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

亚太-新加坡

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

亚太-雅加达

单台ECS安装:

cd /usr/local && curl -k -O https://obs.ap-southeast-4.myhuaweicloud.com/uniagent-ap-southeast-4/package/agent_install.sh && bash agent_install.sh -r ap-southeast-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://obs.ap-southeast-4.myhuaweicloud.com/uniagent-ap-southeast-4/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

非洲-约翰内斯堡

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r af-south-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r af-south-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

拉美-墨西哥城二

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-la-north-2.obs.la-north-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r la-north-2 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://uniagent-la-north-2.obs.la-north-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

拉美-圣地亚哥

单台ECS安装:

cd /usr/local && curl -k -O https://obs.la-south-2.myhuaweicloud.com/uniagent-la-south-2/package/agent_install.sh && bash agent_install.sh -r la-south-2 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O https://obs.la-south-2.myhuaweicloud.com/uniagent-la-south-2/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

中东-利雅得

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-me-east-1.obs.me-east-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r me-east-1 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-me-east-1.obs.me-east-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

(可选)安装lspci工具

  1. 登录弹性云服务器。
  2. 更新镜像源,获取安装依赖。

    wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh

    更多内容,请参见如何使用自动化工具配置华为云镜像源(x86_64和ARM)?

  3. 执行以下命令,安装lspci工具。
    • CentOS系统:

      yum install pciutils

    • Ubuntu系统:

      apt install pciutils

  4. 执行以下命令,查看安装结果。

    lspci -d 10de:

    图3 安装结果

相关文档