Agent一键修复后无监控数据问题排查(老版本Agent)
问题现象
Agent一键修复后运行正常,但仍然没有监控数据。
问题分析
弹性云服务器或裸金属服务器安装Agent后仍然无操作系统监控数据时,一般考虑有如下几个原因:
- Agent进程运行状态异常
- 委托异常
- 路由配置异常导致的获取临时AK/SK失败
- 网络问题
首先需要确认使用的Agent版本。
- 使用root账号,登录ECS。
- 执行如下命令,确认使用老版本Agent。
if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then /usr/local/uniagent/extension/install/telescope/bin/telescope -v; elif [[ -f /usr/local/telescope/bin/telescope ]]; then echo "old agent"; else echo 0; fi
- 返回“old agent”,表示使用老版本Agent。
- 返回版本号,表示使用新版本Agent。
- 返回“0”,表示未安装Agent。
问题解决(Linux)
- 以root用户登录弹性云服务器或裸金属服务器。
- 执行如下命令,检查telescope进程是否存在:
当显示如下内容时,表示telescope进程正常。
图1 查看telescope进程
- 如果进程异常,执行如下命令,启动Agent。
- 执行如下命令,确认云服务器委托已创建。
curl http://169.254.169.254/openstack/latest/securitykey
- 当有数据返回时,表示获取AK/SK正常。排查结束。
- 调用失败或者回显如下时,请执行5。
图2 获取AK/SK失败
- 在管理控制台的云监控服务页面,选择“主机监控 > 弹性云服务器”,选择对应的目标云服务器并单击“修复插件配置”。
- 问题解决,排查结束。
- 未解决,请执行6。
- 执行如下命令,检查路由:
当返回如下信息时,表示路由正常:
图3 路由配置正常-Linux
- 路由正常:排查结束。
- 路由异常:请执行7。
- 当路由不存在时,执行如下命令,添加路由:
route add -host 169.254.169.254 gw 192.168.0.1
上述命令斜体部分192.168.0.1为云服务器的网关,请根据实际情况修改配置。
问题是否解决?
- 解决:排查结束。
- 未解决:执行8。
- 执行如下命令,打开telescope的配置文件。
- 获取telescope配置文件中的Endpoint。
图4 查询telescope的Endpoint配置
- 执行如下命令,确认DNS解析是否正常。
问题解决(Windows)
- 以administrator权限用户登录弹性云服务器或裸金属服务器。
- 进入任务管理器,查看telescope进程是否存在。
- 双击start.bat,启动Agent。
- 访问http://169.254.169.254/openstack/latest/meta_data.json,确认云服务器委托已创建。
- 可访问:表示委托正常,排查结束。
- 不可访问:请执行6。
- 执行如下命令,检查路由:
当返回如下信息时,表示路由正常:
图7 路由配置正常-Windows
- 路由正常:排查结束。
- 路由异常:请执行7。
- 当路由不存在时,执行如下命令,添加路由:
route add -host 169.254.169.254 gw 192.168.0.1
上述命令斜体部分192.168.0.1为云服务器的网关,请根据实际情况修改配置。
问题是否解决?
- 解决:排查结束。
- 未解决:执行7。
- 打开telescope安装包存放目录bin/conf_ces.json配置文件。
- 获取telescope配置文件中的Endpoint。
- 执行如下命令,确认DNS解析是否正常。