文档首页 > > 用户指南> 节点管理>

节点运维

节点运维

分享
更新时间:2021/01/21 GMT+08:00

升级边缘节点

升级前您需要检查边缘节点的防火墙规则,请务必执行1

  1. 登录边缘节点,配置防火墙规则。

    检查边缘节点防火墙状态。
    systemctl status firewalld
    firewall-cmd --state 

    回显中,notrunning表示关闭,running表示开启。

    如果防火墙开启,您需要打开8883端口,或关闭防火墙。

    • 打开8883端口。
      firewall-cmd --add-port=8883/tcp --permanent   
      systemctl restart firewalld 
    • 关闭防火墙。
      systemctl disable firewalld 
      systemctl stop firewalld

  2. 登录IEF管理控制台。
  3. 选择左侧导航栏的“资源管理 > 边缘节点”
  4. 选定边缘节点,单击最右侧“更多 > 升级检查”

    图1 升级检查

  5. 如检查结果显示“节点无需升级”则不需升级;如结果为“检查到节点可升级”则单击最右侧“更多 > 升级”
  6. 单击节点名称进入节点详情页面则可以查看详细升级记录。

    图2 升级记录

删除边缘节点

您可以删除任何状态的边缘节点。如果您想要删除已纳管的边缘节点,请按以下步骤执行卸载。

删除Atlas 500智能小站边缘节点请参见删除Atlas 500 智能小站边缘节点

  1. 删除边缘节点前,需要删除边缘节点上的应用、函数,并解除与边缘节点绑定的设备。
  2. 以拥有sudo权限的用户登录边缘节点,执行如下命令卸载边缘节点上的软件。

    cd /opt/edge-installer; sudo ./installer -op=uninstall

  3. 登录IEF管理控制台。
  4. 选择左侧导航栏的“边缘资源 > 边缘节点”,单击边缘节点所在行的“更多 > 删除”

删除Atlas 500 智能小站边缘节点

删除边缘节点前,需要删除边缘节点上的应用、函数,并解除与边缘节点关联的设备。

  1. 登录智能小站的WebUI,WebUI地址为https://{hostIP}

    {hostIP}为智能小站的IP地址。

  2. 选择顶侧导航栏“维护”,单击页面左侧的“网管注册”。
  3. 将网管模式由“HUAWEICLOUD Intelligent EdgeFabric(IEF)管理”切换为“点对点web管理”。

    图3 Atlas小站卸载IEF软件

  4. 单击“保存”,智能小站会自动卸载IEF软件。
  5. 登录IEF管理控制台。
  6. 选择左侧导航栏的“边缘资源 > 边缘节点”,单击边缘节点所在行的“更多 > 删除”

查看边缘节点监控信息

  1. 登录IEF管理控制台。
  2. 选择左侧导航栏的“边缘资源 > 边缘节点”
  3. 单击相应的边缘节点名称。
  4. 选择“监控”,查看边缘节点监控信息。
  5. 单击“查看日志”,查看节点日志文件。

在AOM查看日志

边缘节点会上传系统日志和应用日志,您需要在IEF Console中打开日志开关。

  • 系统日志:边缘节点上IEF软件(如edge-core、edge-logger和edge-monitor等)产生的日志。
  • 应用日志:边缘节点上部署的应用所产生的日志。
    • 边缘节点会上传/var/IEF/app/log目录的日志,您可以在创建应用时将容器中目录挂载到/var/IEF/app/log/{appName}下,挂载方法具体请参见▪hostPath:将主机某个目录挂载到容器中。在AOM中可以按{appName}分类查看到应用的日志。
    • 边缘节点会上传容器日志,日志组件会上传 {{DOCKER_ROOT_DIR}}/containers/{containerID}/{containerID}-json.log文件的内容,DOCKER_ROOT_DIR可以通过docker info命令查询到,containerID就是容器ID。
  1. 登录AOM管理控制台。
  2. 选择集群“ief_global”和命名空间“default”

    图4 选择集群和命名空间

  3. 搜索应用名称,单击日志文件右侧“查看”,即可查看详细日志。

    图5 查看日志

在AOM中查看节点监控信息

您可以在AOM查看节点监控信息。

  1. 登录AOM管理控制台。
  2. 选择监控的节点。

    图6 选择监控节点

  3. 单击节点名称,在监控视图Tab页下,您可以查看监控节点使用的资源,如CPU、内存的使用率等。

    图7 查看监控信息

    如果是Atlas 500 智能小站,还可以查看NPU相关信息。

    图8 查看智能小站监控信息

    Atlas 500 智能小站的指标含义如下表所示。

    名称

    描述

    ai_core_rate

    AI core占用率

    ai_cpu_rate

    AI cpu占用率

    ctrl_cpu_rate

    控制cpu占用率

    ddr_cap_rate

    ddr内存占用率

    ddr_bw_rate

    ddr带宽占用率

    node_power

    节点功率

    node_temperature

    节点温度

    node_voltage

    节点电压

    npu_health

    芯片健康状态

    npu_temperature

    芯片温度

在AOM中查看容器监控信息

AOM中可以查看哪些边缘节点上应用容器的监控信息。

  1. 登录AOM管理控制台。
  2. 选择要监控的容器工作负载。

    图9 选择工作负载

  3. 单击负载名称,进入详情页面,在监控视图Tab页下,您可以设置监控容器使用的资源,如CPU、内存的使用率等。

IEF预置的告警

IEF为每个边缘节点预置了7个告警规则,这7类告警会自动上报到AOM。

告警名称

触发条件

清除条件

容器引擎异常

边缘节点配置docker使能时,查询docker信息失败

docker正常运行,edge-core能够获取到docker信息

存活探针异常

应用配置存活探针,探针检测到异常

容器探针检测成功

申请GPU资源失败

部署GPU应用,申请GPU资源失败

成功申请到GPU资源

获取GPU信息失败

边缘节点配置GPU使能时,查询GPU信息失败

成功查询到GPU信息

AK/SK无效

edgehub连续10次分发临时AK/SK,检测到过期或者状态异常

edgehub成功分发临时AK/SK

应用重启

应用容器异常重启

无需清除

容器绑定网卡异常

容器绑定的网卡发生异常

容器绑定的网卡状态正常

图10 查看告警

在AOM中设置告警

您可以在AOM中创建阈值规则来监控边缘节点上的各项指标。

  1. 登录AOM管理控制台。
  2. 在左侧控制台选择“告警 > 告警规则”,单击右侧“添加阈值”
  3. 填写阈值名称、选择资源。

    图11 添加阈值

  4. 单击下一步,设置规则。

    图12 设置规则

  5. 单击“添加”,完成创建。

    创建完成后,可以在阈值规则中看到创建的规则。

    图13 查看阈值规则

    当指标满足规则条件时会触发告警,告警可以在告警列表中查看。

上报自定义告警到AOM

IEF支持从边缘节点上报自定义告警到AOM,使用MQTT客户端发布告警信息到MQTT Broker,IEF会将告警自动上报到AOM。

具体请参见添加告警清除告警

NTP配置

节点上必须运行了ntp服务才能配置,否则不会生效。

  1. 登录IEF管理控制台,选择左侧导航栏的“边缘资源 > 边缘节点”
  2. 选择对应节点,单击“配置”
  3. 在时间配置页签中可对节点的NTP进行配置,单击“编辑”
  4. 输入NTP服务地址,当前最多支持2个ntp地址的配置,如下图所示。

    图14 配置NTP服务地址

  5. 单击“保存”,会显示配置的状态。
分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问