Agent一键修复后无监控数据问题排查
问题现象
Agent一键修复后运行正常,但仍然没有监控数据。
约束与限制
当前章节的修复方式只支持新版本Agent,若Agent版本为老版本,建议先升级到新版本。
查看当前Agent版本的命令为:
if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then /usr/local/uniagent/extension/install/telescope/bin/telescope -v; elif [[ -f /usr/local/telescope/bin/telescope ]]; then echo "old agent"; else echo 0; fi
- 返回“old agent”,表示使用老版本Agent。
- 返回版本号,表示使用新版本Agent。
- 返回“0”,表示未安装Agent。
问题分析
弹性云服务器或裸金属服务器安装Agent后仍然无操作系统监控数据时,一般考虑有如下几个原因:
- Agent进程运行状态异常
- 委托异常
- 网络问题
问题解决(Linux)
- 以root用户登录弹性云服务器或裸金属服务器。
- 执行如下命令,检查telescope进程是否存在:
当显示如下内容时,表示telescope进程正常。
图1 查看telescope进程
- 如果进程异常,执行如下命令,启动Agent。
- 执行如下命令,确认云服务器委托已创建。
curl -ivk https://agent.ces.myhuaweicloud.com/v1.0/agencies/cesagency/securitykey
- 当有数据返回时,表示获取AK/SK正常。排查结束。
- 调用失败或者回显如下时,请执行5。
图2 获取AK/SK失败
- 在管理控制台的统一身份认证服务页面,选择“委托”,查询“cesagency”委托,查看cesagency委托中“项目[所属区域]”是否包含当前区域,若不存在,单击“权限配置”,然后单击“配置权限”,搜索“CES Administrator”,单击下拉框,勾选当前区域。
图3 查询cesagency委托
图4 配置权限
- 问题解决,排查结束。
- 未解决,请执行6。
- 执行如下命令,确认DNS解析是否正常。
问题解决(Windows)
- 以administrator权限用户登录弹性云服务器或裸金属服务器。
- 进入任务管理器,查看telescope进程是否存在。
- 双击C:\Program Files\uniagent\script目录下的start.bat,启动Agent。
- 在管理控制台的统一身份认证服务页面,选择“委托”,查询“cesagency”委托,查看cesagency委托中“项目[所属区域]”是否包含当前区域,若不存在,单击“权限配置”,然后单击“配置权限”,搜索“CES Administrator”,单击下拉框,勾选当前区域。
图7 查询cesagency委托
图8 配置权限
- 问题解决,排查结束。
- 未解决,请执行6。
- 执行如下命令,确认DNS解析是否正常。
ping agent.ces.myhuaweicloud.com
- 网络正常:排查结束。
- 网络无法访问:修改DNS配置或CES的终端节点。
各区域对应的云监控服务的Endpoint请参考“地区和终端节点”。