云监控服务 CES

华为云云监控为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台。

 
 

    ECS监控插件重启又需要重新安装 更多内容
  • Agent不同插件状态说明及处理方式

    Agent不同插件状态说明及处理方式 Agent有以下五种状态: 未安装/未启动:指未在该E CS /BMS中安装Agent或手动停止了Agent。 运行中:Agent运行正常,可正常上报监控数据。 故障:监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。

    来自:帮助中心

    查看更多 →

  • 管理Agent

    cript/uninstall.sh 用户可手动卸载Agent插件,卸载后云监控服务将不再主动采集主机监控数据。如需再次使用,请参考操作步骤或操作步骤重新安装。 查看Agent状态(老版本) 以root用户登录ECS或BMS,执行以下命令,查看Agent状态。 service telescoped

    来自:帮助中心

    查看更多 →

  • Agent各种状态说明及异常状态处理方法

    ux)、修改DNS与添加安全组(Windows)。 已停止: Agent被手动停止,启动插件方法参考管理Agent。 故障:监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 Agent 域名 无法解析,修复方法参考修改DNS与添加安全组(Li

    来自:帮助中心

    查看更多 →

  • 集群监控概述

    插件全部实例状态都在运行中,插件正常使用 安装中 插件正在安装中 升级中 插件正在更新中 回滚中 插件正在回滚中 回滚失败 插件回滚失败,可重试回滚或卸载后重新安装 删除中 插件正在删除中 部分就绪 插件下只有部分实例状态为运行中,插件部分功能可用 不可用 插件状态异常,插件不可使用。可单击插件名称查看实例异常事件

    来自:帮助中心

    查看更多 →

  • 管理监控插件

    所有:监控平台+自有服务全部插件 监控平台:查看监控平台提供的通用插件 自有服务:查看自有服务下的插件 名称: 输入插件名称,支持模糊匹配搜索 时间: 插件上传时间 在插件列表查看插件,如需查看具体插件详情,可单击待查看插件所在行“操作”列的“详情”,可查看插件详情。 插件详情包含如下内容:

    来自:帮助中心

    查看更多 →

  • Agent插件状态显示“故障”该如何处理?

    Agent插件状态显示“故障”该如何处理? 操作系统监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 “故障”原因可能为: Agent域名无法解析,请先确认修改DNS与添加安全组中 DNS地址 配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。

    来自:帮助中心

    查看更多 →

  • 管理监控插件

    所有:监控平台+自有服务全部插件 监控平台:查看监控平台提供的通用插件 自有服务:查看自有服务下的插件 名称: 输入插件名称,支持模糊匹配搜索 时间: 插件上传时间 在插件列表查看插件,如需查看具体插件详情,可单击待查看插件所在行“操作”列的“详情”,可查看插件详情。 插件详情包含如下内容:

    来自:帮助中心

    查看更多 →

  • 云原生监控插件升级检查异常处理

    需要重新安装开源版本grafana插件重新安装grafana不会影响已有的数据。 手动创建的grafana的服务(service)和路由(ingress)无法直接绑定至新的grafana插件需要手动修改服务的选择器的配置,请及时修改对应的选择器。 方案一:如果当前插件能够升级至3

    来自:帮助中心

    查看更多 →

  • 通过节点池升级节点的GPU驱动版本

    单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。 # 插件版本为2.0.0以下时,执行以下命令: cd /opt/

    来自:帮助中心

    查看更多 →

  • 云原生监控插件

    云原生监控插件 插件简介 云原生监控插件(kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对

    来自:帮助中心

    查看更多 →

  • 常用监控插件说明

    当alarm_name配置了变量{{$all_matching_log}}时,若产生告警且后续周期匹配到了告警,新匹配到的告警会在原告警ID的基础上,产生一个新的告警,并上报到监控系统,告警清除时会清除当前告警和后续产生的告警;当alarm_name配置为空时,会读取文件中的所有内容,逐行检测并上报告警。)

    来自:帮助中心

    查看更多 →

  • 常用监控插件说明

    当alarm_name配置了变量{{$all_matching_log}}时,若产生告警且后续周期匹配到了告警,新匹配到的告警会在原告警ID的基础上,产生一个新的告警,并上报到监控系统,告警清除时会清除当前告警和后续产生的告警;当alarm_name配置为空时,会读取文件中的所有内容,逐行检测并上报告警。)

    来自:帮助中心

    查看更多 →

  • GPU故障处理

    如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。 表1 GPU插件隔离事件 事件原因 详细信息 描述 隔离结果 GPUMemoryError

    来自:帮助中心

    查看更多 →

  • CCE AI套件(Ascend NPU)

    如何确认节点NPU驱动已安装完成 NPU驱动安装成功后需要重启节点才能生效,且重启节点前需要确认驱动已经安装完成,否则驱动将无法生效,NPU资源不可用。驱动安装完成确认方式如下: 在集群 “插件中心”页面,单击插件名称查看插件“实例列表”。 查看该节点上部署的 npu-driver-installer

    来自:帮助中心

    查看更多 →

  • 云监控插件(Agent)

    监控插件(Agent) Agent安装配置方式说明 Agent版本特性 Agent安装说明 安装配置Agent 管理Agent 其他插件安装说明 升级Agent 父主题: 主机监控

    来自:帮助中心

    查看更多 →

  • 云原生监控插件

    云原生监控插件 插件简介 云原生监控插件(kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对

    来自:帮助中心

    查看更多 →

  • 云原生监控插件

    0版本后,Grafana组件从云原生监控插件中移除,拆分为独立的Grafana插件。因此,当插件版本从3.9.0后的版本回滚至3.9.0前的版本,请先卸载Grafana插件再进行回滚操作。 权限说明 云原生监控插件中的node-exporter组件会监控Docker的存储磁盘空间,需要读取宿主机的/var/run/docker

    来自:帮助中心

    查看更多 →

  • 插件不兼容导致集群不可用

    选择“插件管理”,单击“自定义插件列表”页签。确认是否继续使用该自定义插件。 是,删除插件重新安装。 在自定义插件操作列表,卸载并删除插件。 根据节点日志的报错信息解决插件存在的问题,无法自行解决时可联系技术支持。 插件问题解决后,在自定义插件操作列表,上传并安装插件。当“插

    来自:帮助中心

    查看更多 →

  • 漏洞修复完毕后是否需要重启主机?

    漏洞修复完毕后是否需要重启主机? Windows系统漏洞修复完成后需要手动重启主机。 Linux系统Kernel类的漏洞修复完成后需要手动重启主机,其它类型漏洞修复完成后不重启也能生效。 父主题: 漏洞管理

    来自:帮助中心

    查看更多 →

  • Kubernetes和nvidia-docker安装

    安装nvidia-docker插件:nvidia-docker是一个Docker插件,使容器能够访问宿主机上的GPU资源。从nvidia-docker官方网站获取nvidia-docker插件并进行安装。请确保安装了适用于的操作系统和Docker版本的最新版本的nvidia-docker插件。 使用k

    来自:帮助中心

    查看更多 →

  • 监控弹性云服务器

    器的各项性能指标。 主机监控分为基础监控、操作系统监控和进程监控。 基础监控ECS自动上报的监控指标,可以监控CPU使用率等指标。 操作系统监控:通过在ECS中安装Agent插件,为用户提供 服务器 的系统级、主动式、细颗粒度监控服务。除了CPU使用率等指标外,还可以支持内存使用率(Linux)等指标。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了