更新时间:2025-09-11 GMT+08:00

故障诊断异常如何处理?

问题描述

用户在“故障诊断”页面选择“ECS诊断”,发起ECS诊断后,执行过程中出现异常。

解决方案

不同的执行阶段产生问题根因并不一致,在此提供了对应的解决方案,建议参照以下步骤排查并处理。

通常情况下,“安装插件”步骤报错是因为用户没有使用Uniagent进行安装插件的IAM权限。具体可参考批量管理ICAgent插件

  1. 登录IAM控制台

    若无IAM访问权限,请联系管理员处理。

  2. 在左侧导航栏选择“用户”,进入用户列表页面。

    图1 查看用户列表

  3. 在用户列表中单击待查看的用户名称,进入用户详情页面。
  4. 选择授权记录页签,查看当前用户所有授权。

    图2 查看用户授权记录

  5. 单击权限名称查看详情,在策略内容中确认Action列表中是否包含aom:uniagentAgent:install权限。

    图3 查看权限

  6. 如果当前账号缺少所需权限,请联系账号管理员,在IAM中为登录用户申请aom:uniagentAgent:install权限。

    具体操作可参见创建用户组并授权

通常情况下,“采集数据”步骤报错是因为用户执行采集脚本报错,脚本执行报错的根因通常情况下体现在:

  • OS镜像版本不符合约束;
  • Uniagent版本不符合约束。

具体约束请参见ECS诊断页面。

  1. 登录云运维中心
  2. 在左侧导航栏选择“任务管理 > 执行记录”。
  3. 单击上方“脚本工单”。
  4. 按照工单名称搜索“HWC.COC.PLATFORM-execute-linux-holmes-agent.sh”。
  5. 单击符合“采集数据”步骤执行时间区间的工单记录,查看详细信息。

    • 若出现“/usr/local/uniagentd/tmp/”字样报错,请查看UniAgent版本是否符合约束;
    • 若返回正常的以JSON字符串形式展示的采集信息,但执行仍然报错,请查看OS镜像版本是否符合约束。

通常情况下,可能由于网络拥塞导致小概率报错

  1. 登录云运维中心
  2. 在左侧导航栏选择“任务管理 > 执行记录”。
  3. 单击上方“诊断工单”,进入诊断工单页签。
  4. 单击异常工单名称,进入诊断详情页面。
  5. 单击“重试”按钮,自行重试即可。

通常情况下,“卸载/清理数据”步骤报错是因为用户没有使用Uniagent进行卸载插件的IAM权限,可参考批量管理ICAgent插件

  1. 登录IAM控制台

    若无IAM访问权限,请联系管理员处理。

  2. 在左侧导航栏选择“用户”,进入用户列表页面。

    图4 查看用户列表

  3. 在用户列表中单击待查看的用户名称,进入用户详情页面。
  4. 选择授权记录页签,查看当前用户所有授权。

    图5 查看用户授权记录

  5. 单击权限名称查看详情,在策略内容中确认Action列表中是否包含aom:uniagentAgent:uninstall权限。

    图6 查看权限

  6. 如果当前账号缺少所需权限,请联系账号管理员,在IAM中为登录用户申请aom:uniagentAgent:uninstall权限。

    具体操作可参见创建用户组并授权