设备性能数据未上报
现象描述
设备性能数据未上报。
可能的原因
- 设备未注册成功。
- 设备刚注册上线。
- 没有配置性能数据上报。
- 设备侧时间不准确。
- 设备侧到华为乾坤云平台的网络连通异常。
- 设备侧性能上报通道未建立。
- 设备侧数据未上报。
- (防火墙)设备的安全策略配置错误。
处理步骤
- 确认设备已正常注册上线。
单击控制台页面右上方“资源中心 > 设备管理 ”,在“设备”页签下查看设备状态。如果是“正常”,则表示注册成功。
- 确认设备是否刚注册上线。如果是刚上线,请先等待一段时间。
性能数据(设备的内存、CPU、接口流量速率)上报有一定的周期频率,云端获取数据为10分钟一次,设备刚上线需要等待一段时间。
- 检查设备的“上报性能数据信息”是否打开,且配置数据下发成功。
有两个地方可以检查该项配置,建议均确认一下。
- 在“站点通用配置 > 运维数据采集”下检查。
- 以租户帐号登录华为乾坤控制台。
- 选择“资源中心 > 站点管理”,单击待配置站点“操作”列的。
- 在“站点通用配置”页面,单击“运维数据采集”,在对应的设备页签下,查看“上报性能数据信息”是否开启。
- 在“配置结果”页面,检查“数据监控”特性的数据是否下发成功。
- 在“高级配置”下检查。
- 切换到高级配置页面。
- 单击页面左上角按钮,单击“我的服务 > 云管理网络”,进入云管理网络服务首页。
- 单击页面右上角“ > 高级配置”,切换到高级配置页面。
- 查看“上报性能数据信息”是否开启。
- 单击页面左上角按钮,选择“监控运维 > 监控 > 监控设置 > 数据采集配置”。
- 在对应的站点和设备下,查看“上报性能数据信息”是否开启。
不同的设备开启的方式不同,本步骤以AP为例。其他设备请参考开启设备数据上报。
图3 检查“上报性能数据信息”2
- 检查配置数据是否下发成功。
- 单击页面左上角按钮,选择“规划 > 部署 > 配置结果 > 配置结果”页面。
- 在对应的站点和设备下,检查“数据监控”特性的数据是否下发成功。
如果数据下发失败,请根据失败原因进行处置。如果无法解决,请联系联系技术支持。
- 切换到高级配置页面。
- 在“站点通用配置 > 运维数据采集”下检查。
- 查看设备上的时间是否准确。
- 切换到高级配置页面。
- 单击页面左上角按钮,单击“我的服务 > 云管理网络”,进入云管理网络服务首页。
- 单击页面右上角“ > 高级配置”,切换到高级配置页面。
- 单击页面左上角按钮,选择“规划 > 设计 > 站点设计 > 设备管理”。
- 单击待检查的设备名称,进入详情页面。
图4 设备详情
- 单击“命令行”,登录设备。
- 执行display clock,查看设备上的时间是否准确。
不同的设备类型,命令会存在差异。本例以AP为例。
<AirEngine8760-X1-PRO>display clock 2023-11-28 18:06:40 Tuesday Time Zone(DeviceTimeZone) : UTC+08:00:00
- 切换到高级配置页面。
- 检查设备与华为乾坤云平台的网络是否可以正常通信。
在设备上ping华为乾坤云平台的南向域名device.qiankun-saas.huawei.com,查看是否可以ping通。
如果无法ping通,则请继续ping 139.9.137.139。
- 如果依然ping不通,则表示网络不通,请检查客户网络,是否由防火墙等安全设备进行了拦截。
- 如果能ping通,则表示未配置DNS或者配置的DNS不正确,请检查DNS的配置。
<HUAWEI> ping device.qiankun-saas.huawei.com PING device.qiankun-saas.huawei.com (139.9.137.139): 56 data bytes, press CTRL_C to break Reply from 139.9.137.139: bytes=56 Sequence=1 ttl=52 time=35 ms Reply from 139.9.137.139: bytes=56 Sequence=2 ttl=52 time=34 ms Reply from 139.9.137.139: bytes=56 Sequence=3 ttl=52 time=35 ms Reply from 139.9.137.139: bytes=56 Sequence=4 ttl=52 time=34 ms Reply from 139.9.137.139: bytes=56 Sequence=5 ttl=52 time=34 ms --- device.qiankun-saas.huawei.com ping statistics --- 5 packet(s) transmitted 5 packet(s) received 0.00% packet loss round-trip min/avg/max = 34/34/35 ms
- (V5款型)在设备侧检查性能通道是否建立。
V5款型:V200的交换机/WAC/FitAP/AP、V300的AR、非-F款型的防火墙为V5款型。
以AP为例,执行如下命令。<AirEngine8760-X1-PRO>system-view [AirEngine8760-X1-PRO]diagnose [AirEngine8760-X1-PRO-diagnose]display http2-client item 2 uiNodeID = 0 uiChannelID = 227 uiSourceIP = 0.0.0.0 uiDestIP = 139.9.137.139 uiDestPort = 10032 uiHeartBeatInterval = 180 uiReconnectTimes = 0 uiReconnectCurrTimes= 7 uiReconnectInterval = 300 uiVrfIndex = 0 uiTcpKeepAliveIdle = 10 pSSLCtx = 0xdff2f820 pSSL = 0xea95a9ec iFD = 27 pHttpSession = 0xd543573c pLocalCertAckMsg = (nil) iLastStreamID = -1 iStreamID = 1 pUserData = (nil) uiDataTotalLen = 0 uiDataSentLen = 0 usAppType = 2 ucConnStatus = 3 , CONN_UP ucIfInitRetry = 0 szPkiDomain = default ucDscp = 46 SendQueueID = 59 Connection RemoteWindowSize = 684811 Connection LocalRealWindowSize = 65535 Stream RemoteWindowSize = 429579 Stream LocalRealWindowSize = 65535
ucConnStatus = 3,说明通道建立正常。
ucConnStatus = 2,说明通道没有建立起来。请按照如下方式进一步排查:
- 排查客户组网是否有防火墙等安全设备,是不是做了拦截或者没有放通对应的IP和端口(10031-10035端口需要放通)。
- 排查是否是上行接口的MTU包过大导致上层设备把包丢弃,可以修改小一点的MTU值,再进行测试。
- 查看设备上报开关是否打开。
不同设备使用不同的命令,如表1所示。
表1 检查性能数据是否上报的命令 设备类型
相关命令
AP
system-view display wmi status
AR
system-view diagnose display cloud-mng pm statistics //查看AR性能数据上报业务的统计信息 display cloud-mng pm status //查看AR性能数据上报业务的配置信息
防火墙
system-view diagnose display performance cache statistics //查看防火墙性能数据上报业务的统计信息 display performance configuration //查看防火墙性能数据上报业务的配置信息
交换机
system-view diagnose display cloud-mng pm status 或 display netconf pm status //查看交换机性能数据上报业务的统计信息
以AP为例查看结果,如图5所示。如果间隔5min查询发现“Records”未变,说明设备没有上报,请联系联系技术支持。
“Switch”表示开关,“Interval”表示上报周期,“Trigger”表示采集总次数,“Records”表示上报记录总数。
- (云杉款型)在设备侧检查数据是否正常上报。
云杉款型:V600版本的交换机/AR/WAC/FitAP、-F款型的防火墙为云杉款型。
- 使用如下命令,检查相关配置项是否下发。
system-view telemetry //进入配置项 display this //查看配置项
设备性能数据相关的sensor-path为:
- interfaces/interface 接口数据
- board-memory-infos/board-memory-info内存利用率
- board-storage-partition-info存储空间使用率
- board-cpu-info CPU使用率
- 使用如下命令,查看连接状态。
system-view diagnose display grpc client connection
主要排查两点:
- 与华为乾坤云平台建联的10034端口连接状态是否是active。
- 发送数据统计(图中右侧字段)是否随时间上涨。
- 使用如下命令,查看上报数据是否与下发一致。
system-view diagnose display telemetry tlmt-agent yang-task statistics
主要查看关注的sensor-path是否发送数据(图中右侧字段不为零)。
- 使用如下命令,检查相关配置项是否下发。
- (防火墙)检查设备侧的安全策略是否配置正确。
性能数据上报走的安全策略有如下要求:
- 源安全域local,目的安全域(建议直接选trust、untrust),注意服务必须要选any,不能选dns或者https等。
补充说明1:目的安全域指设备上线用的IP所在的接口安全域(三层物理口或者VLAN口)。
补充说明2:性能数据上报协议为http2.0,需用any覆盖。
- VLANID选any,不要设置特定VLANID。