更新时间:2024-12-16 GMT+08:00

设置健康检查

健康检查是指容器部署的组件在运行过程中,根据需要定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。

ServiceStage提供了如下健康检查方式:

  • 组件存活探针用于检测应用组件是否存活,类似于执行ps命令检查进程是否存在。如果应用组件的存活检查失败,集群会对该应用组件执行重启操作;若应用组件的存活检查成功则不执行任何操作。
  • 组件业务探针用于检测应用组件是否准备好开始处理用户请求。一些程序的启动时间可能很长,比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服务。这时候程序进程存在,但是并不能对外提供服务。这种场景下该检查方式就非常有用。如果应用组件的就绪检查失败,集群会屏蔽请求访问该组件;若检查成功,则会开放对该应用组件的访问。
  • 组件启动探针:用于检测应用是否已经启动,控制容器在启动成功后再进行存活性和业务检查, 确保存活、业务探针不会影响应用程序的启动。可用于对启动慢的容器进行存活性检查,避免它们在启动运行之前就被终止。

健康检查方式

  • HTTP请求检查

    HTTP请求方式针对的是提供HTTP/HTTPS服务的应用组件,集群周期性地对该应用发起HTTP/HTTPS GET请求,如果HTTP/HTTPS response返回码属于200~399范围,则证明探测成功,否则探测失败。使用HTTP请求探测必须指定应用监听的端口和HTTP/HTTPS的请求路径。

    例如:提供HTTP服务的应用组件,端口为80,HTTP检查路径为/health-check,主机地址为containerIP,那么集群会周期性地对应用发起如下请求:

    GET http://containerIP:80/health-check

    HTTP请求检查中的主机地址,如果不填写,默认为实例IP。

  • TCP端口检查

    对于提供TCP通信服务的应用,集群周期性地对该应用建立TCP连接。如果连接成功,则证明探测成功,否则探测失败。选择TCP端口探测方式,必须指定应用监听的端口。比如有一个nginx应用组件,它的服务端口是80,对该应用组件配置了TCP端口探测,指定探测端口为80,那么集群会周期性地对该应用组件的80端口发起TCP连接,如果连接成功则证明检查成功,否则检查失败。

  • 执行命令检查

    命令检查方式要求用户指定一个应用组件内的可执行命令,集群会周期性地在应用组件内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。

    对于上面提到的TCP端口检查和HTTP请求检查,都可以通过执行命令检查的方式来替代:

    • 对于TCP端口探测,可以使用程序来对应用组件的端口进行connect,如果connect成功,脚本返回0,否则返回-1。
    • 对于HTTP请求探测,可以使用脚本来对应用组件进行wget:

      wget http://127.0.0.1:80/health-check

      并检查response的返回码,如果返回码在200~399的范围,脚本返回0,否则返回-1。

      • 必须把要执行的程序放在应用组件的镜像里面,否则会因找不到程序而执行失败。
      • 如果执行的命令是一个shell脚本,由于集群在执行应用组件里的程序时,不在终端环境下,因此不能直接指定脚本为执行命令,需要加上脚本解释器。比如脚本是/data/scripts/health_check.sh,那么使用执行命令检查时,指定的程序应该是sh /data/scripts/health_check.sh。究其原因是集群在执行应用组件里的程序时,不在终端环境下。

公共参数说明

表1 公共参数说明

参数

参数说明

延迟时间/秒

延迟检查时间,单位为秒,此设置与业务程序正常启动时间相关。

例如,设置为30,表明应用启动后30秒才开始健康检查,该时间是预留给业务程序启动的时间。

超时时间/秒

超时时间,单位为秒。如果超过这个时间,本次健康检查就被视为失败。

例如,设置为10,表明执行健康检查的超时等待时间为10秒。若设置为0或不设置,默认超时等待时间为1秒。

设置健康检查

  1. 选择“容器配置”。
  2. 在“健康检查”页签,根据业务实际需求设置健康检查参数。

    相关公共参数说明请参考表1