更新时间:2024-04-03 GMT+08:00
Agent一键修复后无监控数据问题排查
问题现象
Agent一键修复后运行正常,但仍然没有监控数据。
问题分析
弹性云服务器或裸金属服务器安装Agent后仍然无操作系统监控数据时,一般考虑有如下几个原因:
- Agent进程运行状态异常
- 委托异常
- 路由配置异常导致的获取临时AK/SK失败
- 网络问题
问题解决(Linux)
- 以root用户登录弹性云服务器或裸金属服务器。
- 执行如下命令,检查telescope进程是否存在:
当显示如下内容时,表示telescope进程正常。
图1 查看telescope进程
- 如果进程异常,执行如下命令,启动Agent。
- 执行如下命令,确认云服务器委托已创建。
curl http://169.254.169.254/openstack/latest/securitykey
- 当有数据返回时,表示获取AK/SK正常。排查结束。
- 调用失败或者回显如下时,请执行5。
图2 获取AK/SK失败
- 在管理控制台的云监控服务页面,选择“主机监控 > 弹性云服务器”,选择对应的目标弹性云服务器并单击“修复插件配置”。
- 问题解决,排查结束。
- 未解决,请执行6。
- 执行如下命令,检查路由:
当返回如下信息时,表示路由正常:
图3 路由配置正常-Linux
- 路由正常:排查结束。
- 路由异常:请执行7。
- 当路由不存在时,执行如下命令,添加路由:
route add -host 169.254.169.254 gw 192.168.0.1
上述命令斜体部分192.168.0.1为云服务器的网关,请根据实际情况修改配置。
问题是否解决?
- 解决:排查结束。
- 未解决:执行8。
- 执行如下命令,打开telescope的配置文件。
- 获取telescope配置文件中的Endpoint。
- 执行如下命令,确认DNS解析是否正常。
- 网络正常:排查结束。
- 网络无法访问:修改DNS与添加安全组(Linux)或CES的终端节点。
各区域对应的云监控服务的Endpoint请参考“地区和终端节点”。
问题解决(Windows)
- 以administrator权限用户登录弹性云服务器或裸金属服务器。
- 进入任务管理器,查看telescope进程是否存在。
- 双击start.bat,启动Agent。
- 访问http://169.254.169.254/openstack/latest/meta_data.json,确认云服务器委托已创建。
- 可访问:表示委托正常,排查结束。
- 不可访问:请执行6。
- 执行如下命令,检查路由:
当返回如下信息时,表示路由正常:
图6 路由配置正常-Windows
- 路由正常:排查结束。
- 路由异常:请执行7。
- 当路由不存在时,执行如下命令,添加路由:
route add -host 169.254.169.254 gw 192.168.0.1
上述命令斜体部分192.168.0.1为云服务器的网关,请根据实际情况修改配置。
问题是否解决?
- 解决:排查结束。
- 未解决:执行7。
- 打开telescope安装包存放目录bin/conf_ces.json配置文件。
- 获取telescope配置文件中的Endpoint。
- 执行如下命令,确认DNS解析是否正常。
- 网络正常:排查结束。
- 网络无法访问:修改DNS与添加安全组(Linux)或CES的终端节点。
各区域对应的云监控服务的Endpoint请参考“地区和终端节点”。
父主题: 主机监控