更新时间:2021-12-17 GMT+08:00
分享

安装前检查

安装之前,请先检查是否满足安装条件。

操作步骤

  1. 使用PuTTY工具以root用户通过SSH方式登录采集Agent后台。
  2. 执行以下命令,检查collector用户是否存在,用于确保在执行安装部署之前采集Agent上无collector用户。

    cat /etc/passwd|awk -F ":" '{print $1}'|grep collector

    • 若系统无回显信息,表示collector用户不存在,请执行4
    • 若系统返回如下回显信息,表示collector用户存在,请先执行userdel collector命令删除collector用户,然后执行4
      collector

  3. 执行以下命令,检查collector用户组是否存在,用于确保在执行安装部署之前采集Agent上无collector用户组。

    cat /etc/group |awk -F ":" '{print $1}' |grep collector;

    • 若系统无回显信息,表示collector用户组不存在,请执行4
    • 若系统返回如下回显信息,表示collector用户组存在,请先执行groupdel collector 命令删除collector用户组,然后执行4
      collector

  4. 检查虚拟机是否满足表1中的规格要求。

    表1 虚拟机规格

    规格项

    规格说明

    支持的平台架构

    x86

    ARM

    操作系统版本

    Euler 2.5 或 2.8

    SUSE 12(SP3)及以上版本

    Red Hat Enterprise Linux 7及以上版本

    最小规格

    1VM(4U8G+200G数据盘)

    其中,“/opt”路径挂载的磁盘分区大小至少为100G。

    检查的具体操作方法:

    1. 执行以下命令,查看虚拟机的内存。

      free -g

      系统返回类似如下回显信息,total列显示8,说明内存为8G。

      total        used        free      shared  buff/cache   available
      Mem:              8         1           4           0           2           7
      Swap:            31           0          31
      [root@linux ~]#
    2. 执行以下命令,查看虚拟机的核数。

      cat /proc/cpuinfo| grep "processor"| wc -l

      系统返回类似如下回显信息,说明核数为4。

      4
    3. 执行以下命令,查看虚拟机的“/opt”目录大小。

      df -h /opt

      系统返回类似如下回显信息,Avail列显示200G,说明“/opt”目录大小为200G。

      Filesystem                               Size  Used  Avail    Use%  Mounted on
      /dev/mapper/vg_root-root   199G  700M   200G   5%     /
      [root@linux ~]#

  5. 检查采集Agent的主机IP地址。

    执行如下命令查询网络设备信息。

    linux-xght:~ # ifconfig

    返回类似如下回显信息,从回显信息可以看出有两个网卡,其中一个网卡是用于和NCE网管通信使用,如下查询结果的eth1。

    eth0      Link encap:Ethernet  HWaddr 28:6E:D4:88:C7:2E
    inet addr:10.113.209.60  Bcast:10.113.209.255  Mask:255.255.255.0
    inet6 addr: fe80::2a6e:d4ff:fe88:c72e/64 Scope:Link
    UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
    RX packets:412335928 errors:0 dropped:10 overruns:0 frame:0
    TX packets:11915549 errors:0 dropped:0 overruns:0 carrier:0
    collisions:0 txqueuelen:1000
    RX bytes:22854993877 (21796.2 Mb)  TX bytes:3540144618 (3376.1 Mb)
    
    eth1      Link encap:Ethernet  HWaddr 28:6E:D4:88:C7:2F
    inet addr:10.10.10.1  Bcast:10.10.10.3  Mask:255.255.255.252
    inet6 addr: fe80::2a6e:d4ff:fe88:c72f/64 Scope:Link
    UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
    RX packets:1063809355 errors:0 dropped:26010059 overruns:0 frame:0
    TX packets:1455834 errors:0 dropped:0 overruns:0 carrier:0
    collisions:0 txqueuelen:1000
    RX bytes:65789188745 (62741.4 Mb)  TX bytes:196581746 (187.4 Mb)
    
    eth2      Link encap:Ethernet  HWaddr 28:6E:D4:88:C7:38
    inet addr:192.168.10.19  Bcast:192.168.10.255  Mask:255.255.255.0
    inet6 addr: fe80::2a6e:d4ff:fe88:c738/64 Scope:Link
    UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
    RX packets:2441 errors:0 dropped:0 overruns:0 frame:0
    TX packets:3257 errors:0 dropped:0 overruns:0 carrier:0
    collisions:0 txqueuelen:1000
    RX bytes:112286 (109.6 Kb)  TX bytes:159626 (155.8 Kb)
    
    lo        Link encap:Local Loopback
    inet addr:10.10.10.2  Mask:255.255.255.253
    inet6 addr: ::1/128 Scope:Host
    UP LOOPBACK RUNNING  MTU:65536  Metric:1
    RX packets:1772513 errors:0 dropped:0 overruns:0 frame:0
    TX packets:1772513 errors:0 dropped:0 overruns:0 carrier:0
    collisions:0 txqueuelen:1000
    RX bytes:290303596 (276.8 Mb)  TX bytes:290303596 (276.8 Mb)

    执行命令hostname -i查看主机IP信息,正常应该为上面查询结果的eth1地址,如果不是,请修改“/etc/hosts”文件,将最后一行注释掉,修改为:

    10.10.10.1    linux-xght.suse linux-xght
    
    #
    # hosts         This file describes a number of hostname-to-address
    #               mappings for the TCP/IP subsystem.  It is mostly
    #               used at boot time, when no name servers are running.
    #               On small systems, this file can be used instead of a
    #               "named" name server.
    # Syntax:
    #
    # IP-Address  Full-Qualified-Hostname  Short-Hostname
    #
    
    127.0.0.1       localhost
    
    # special IPv6 addresses
    ::1             localhost ipv6-localhost ipv6-loopback
    
    fe00::0         ipv6-localnet
    
    ff00::0         ipv6-mcastprefix
    ff02::1         ipv6-allnodes
    ff02::2         ipv6-allrouters
    ff02::3         ipv6-allhosts
    10.113.209.59 linux-xght.suse linux-xght
    

    再次执行hostname -i命令,查询结果应该为:10.10.10.1

  6. 检查采集Agent的IP地址和NCE网管北向Common Service节点的IP地址之间是否通信正常。

    如果NCE网管北向Common Service节点是集群部署方式,则要确保采集Agent的IP地址和Common Service集群的浮动IP地址之间通信正常。

    例如:NCE网管北向Common Service节点的IP地址或浮动IP地址为10.20.11.100,需要执行以下命令:

    ping 10.20.11.100 -c 4

    • 如果系统返回类似如下回显信息,说明采集Agent的IP地址和NCE网管北向Common Service节点的IP地址之间通信正常,请执行7
      PING 10.20.11.100 (10.20.11.100) 56(84) bytes of data.
      64 bytes from 10.20.11.100: icmp_seq=1 ttl=63 time=0.320 ms
      64 bytes from 10.20.11.100: icmp_seq=2 ttl=63 time=0.729 ms
      64 bytes from 10.20.11.100: icmp_seq=3 ttl=63 time=0.184 ms
      64 bytes from 10.20.11.100: icmp_seq=4 ttl=63 time=0.189 ms
      --- 10.20.11.100 ping statistics ---
      4 packets transmitted, 4 received, 0% packet loss, time 3000ms
      rtt min/avg/max/mdev = 0.184/0.355/0.729/0.223 ms
    • 如果系统返回类似如下回显信息,说明采集Agent的IP地址和NCE网管北向Common Service节点的IP地址之间网络不通,请联系运营商网络管理员,待通信正常后执行7
      PING 10.20.11.100 (10.20.11.100) 56(84) bytes of data.
      --- 10.20.11.100 ping statistics ---
      4 packets transmitted, 0 received, 100% packet loss, time 2999ms

  7. 检查采集Agent的IP地址和数据接入服务之间是否通信正常。

    例如:数据接入服务服务端控制通道IP地址和数据通道IP地址为10.94.168.93/10.94.187.56,需要执行以下命令:

    ping 10.94.168.93 -c 4

    ping 10.94.187.56 -c 4

    • 如果系统返回类似如下回显信息,说明采集Agent的IP地址和数据接入服务之间通信正常,请执行8
      PING 10.94.168.93 (10.94.168.93) 56(84) bytes of data.
      64 bytes from 10.94.168.93: icmp_seq=1 ttl=63 time=0.320 ms
      64 bytes from 10.94.168.93: icmp_seq=2 ttl=63 time=0.729 ms
      64 bytes from 10.94.168.93: icmp_seq=3 ttl=63 time=0.184 ms
      64 bytes from 10.94.168.93: icmp_seq=4 ttl=63 time=0.189 ms
      --- 10.94.168.93 ping statistics ---
      4 packets transmitted, 4 received, 0% packet loss, time 3000ms
      rtt min/avg/max/mdev = 0.184/0.355/0.729/0.223 ms
    • 如果系统返回类似如下回显信息,说明采集Agent的IP地址和数据接入服务之间网络不通,由于当前采集Agent部署位置规划为运营商DMZ网络区,需要采用VPN/云专线/Internet等方式打通网络,待通信正常后执行8
      PING 10.94.168.93 (10.94.168.93) 56(84) bytes of data.
      --- 10.94.168.93 ping statistics ---
      4 packets transmitted, 0 received, 100% packet loss, time 2999ms

  8. 检查采集Agent的防火墙是否开启,与运营商网络管理员确认防火墙的相关策略。

    由于采集Agent部署在运营商网络DMZ区,防火墙是否启用及策略由运营商网络管理员确定。

    不同操作系统检查防火墙是否开启的命令不同,这里以Euler操作系统为例,需要执行以下命令:

    systemctl status firewalld

    • 如果系统返回如下回显信息,表示防火墙处于开启状态,请确保采集Agent与数据接入服务服务端的通信端口30081、30082、8668、31754、16315以及采集Agent与NCE网管北向Common Service节点的SFTP Server通信端口(默认为22)不被防火墙阻止,相应的防火墙策略需要向运营商网络管理员备案。
      .firewalld.service - firewalld - dynamic firewall daemon   Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled)
         Active: active (running) since Fri 2020-03-06 10:28:05 CST; 8s ago
           Docs: man:firewalld(1)
       Main PID: 22418 (firewalld)
         CGroup: /system.slice/system-hostos.slice/firewalld.service
                 └─22418 /usr/bin/python -Es /usr/sbin/firewalld --nofork --nopid
      Mar 06 10:28:04 linux systemd[1]: Starting firewalld - dynamic firewall daemon...
      Mar 06 10:28:05 linux systemd[1]: Started firewalld - dynamic firewall daemon.
    • 如果系统返回如下回显信息,表示防火墙处于关闭状态,操作结束。
      .firewalld.service - firewalld - dynamic firewall daemon
         Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled)
         Active: inactive (dead)
           Docs: man:firewalld(1)
      
      Mar 06 10:28:04 linux systemd[1]: Starting firewalld - dynamic firewall daemon...
      Mar 06 10:28:05 linux systemd[1]: Started firewalld - dynamic firewall daemon.
      Mar 06 10:28:41 linux systemd[1]: Stopping firewalld - dynamic firewall daemon...
      Mar 06 10:28:42 linux systemd[1]: Stopped firewalld - dynamic firewall daemon.

相关文档