更新时间:2022-05-11 GMT+08:00
分享

日志、监控和告警

日志说明

边缘节点会上传系统日志和应用日志,您需要在IEF控制台上打开日志开关。

  • 系统日志:边缘节点上IEF软件(如edge-core、edge-logger和edge-monitor等)产生的日志。
  • 应用日志:边缘节点上部署的应用所产生的日志。
    • 边缘节点会上传“/var/IEF/app/log”目录的日志,您可以在创建应用时将容器中目录挂载到“/var/IEF/app/log/{appName}”下,具体挂载方法请参见▪hostPath:将主机某个目录挂载到容器中。在AOM中可以按{appName}分类查看到应用的日志。
    • 边缘节点会上传容器日志,日志组件会上传“{{DOCKER_ROOT_DIR}}/containers/{containerID}/{containerID}-json.log”文件的内容,DOCKER_ROOT_DIR可以通过docker info命令查询到,containerID就是容器ID。

在AOM查看日志

  1. 登录AOM管理控制台。
  2. 在左侧导航栏选择“日志 > 日志文件”,单击“组件”页签。
  3. 选择集群“ief_global”和命名空间“default”

    图1 选择集群和命名空间

  4. 搜索应用名称,单击日志文件右侧的“查看”,即可查看详细日志。

在AOM中查看节点监控信息

您可以在AOM查看节点监控信息。

  1. 登录AOM管理控制台。
  2. 选择监控的节点。

    图2 选择监控节点

  3. 单击节点名称,在“监控视图”页签下,您可以查看节点的资源使用情况,如CPU、内存的使用率等。

    图3 查看监控信息

    如果是Atlas 500智能小站,还可以查看NPU相关信息。

    图4 查看智能小站监控信息

    Atlas 500智能小站的指标含义如下表所示。

    名称

    描述

    ai_core_rate

    AI core占用率

    ai_cpu_rate

    AI cpu占用率

    ctrl_cpu_rate

    控制cpu占用率

    ddr_cap_rate

    ddr内存占用率

    ddr_bw_rate

    ddr带宽占用率

    node_power

    节点功率

    node_temperature

    节点温度

    node_voltage

    节点电压

    npu_health

    芯片健康状态

    npu_temperature

    芯片温度

在AOM中查看容器监控信息

AOM中可以查看边缘节点上容器应用的监控信息。

  1. 登录AOM管理控制台。
  2. 选择要监控的容器工作负载。

    图5 选择工作负载

  3. 单击工作负载名称,进入详情页面,在“监控视图”页签下,您可以设置容器的监控指标,如CPU、内存的使用率等。

    图6 监控视图

IEF预置的告警

IEF为每个边缘节点预置了7个告警规则,这7类告警会自动上报到AOM。

告警名称

触发条件

清除条件

容器引擎异常

边缘节点配置Docker使能时,查询Docker信息失败

Docker正常运行,EdgeCore能够获取到Docker信息

存活探针异常

应用配置存活探针,探针检测到异常

容器探针检测成功

申请GPU资源失败

部署GPU应用,申请GPU资源失败

成功申请到GPU资源

获取GPU信息失败

边缘节点配置GPU使能时,查询GPU信息失败

成功查询到GPU信息

AK/SK无效

EdgeHub连续10次分发临时AK/SK,检测到过期或者状态异常

EdgeHub成功分发临时AK/SK

应用重启

应用容器异常重启

无需清除

容器绑定网卡异常

容器绑定的网卡发生异常

容器绑定的网卡状态正常

图7 查看告警

在AOM中设置告警

您可以在AOM中创建阈值规则来监控边缘节点上的各项指标。

  1. 登录AOM管理控制台。
  2. 在左侧导航栏选择“告警 > 阈值规则”,单击右上角的“添加阈值”
  3. 填写阈值名称、选择资源类型。

    图8 添加阈值

  4. 单击“下一步”,定义阈值。

    图9 设置规则

  5. 单击“添加”,完成创建。

    创建完成后,可以在规则列表中看到创建的规则。

    当指标满足规则条件时会触发告警,告警可以在告警列表中查看。

上报自定义告警到AOM

IEF支持从边缘节点上报自定义告警到AOM,使用MQTT客户端发布告警信息到MQTT broker,IEF会将告警自动上报到AOM。

具体请参见添加告警清除告警

分享:

    相关文档

    相关产品

close