设置健康检查

健康检查是指容器部署的组件在运行过程中，根据需要定时检查容器健康状况。若不配置健康检查，如果容器内应用程序异常，Pod将无法感知，也不会自动重启去恢复。最终导致虽然Pod状态显示正常，但Pod中的应用程序异常的情况。

ServiceStage提供了如下健康检查方式：

组件存活探针：用于检测应用组件是否存活，类似于执行ps命令检查进程是否存在。如果应用组件的存活检查失败，集群会对该应用组件执行重启操作；若应用组件的存活检查成功则不执行任何操作。
组件业务探针：用于检测应用组件是否准备好开始处理用户请求。一些程序的启动时间可能很长，比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服务。这时候程序进程存在，但是并不能对外提供服务。这种场景下该检查方式就非常有用。如果应用组件的就绪检查失败，集群会屏蔽请求访问该组件；若检查成功，则会开放对该应用组件的访问。
组件启动探针：用于检测应用是否已经启动，控制容器在启动成功后再进行存活性和业务检查，确保存活、业务探针不会影响应用程序的启动。可用于对启动慢的容器进行存活性检查，避免它们在启动运行之前就被终止。

健康检查方式

HTTP请求检查
 HTTP请求方式针对的是提供HTTP/HTTPS服务的应用组件，集群周期性地对该应用发起HTTP/HTTPS GET请求，如果HTTP/HTTPS response返回码属于200~399范围，则证明探测成功，否则探测失败。使用HTTP请求探测必须指定应用监听的端口和HTTP/HTTPS的请求路径。

例如：提供HTTP服务的应用组件，端口为80，HTTP检查路径为/health-check，那么集群会周期性地对应用发起如下请求：
```
GET http://主机地址:80/health-check
```
HTTP请求检查中的主机地址，如果不填写，默认为实例IP。
TCP端口检查
 对于提供TCP通信服务的应用，集群周期性地对该应用建立TCP连接。如果连接成功，则证明探测成功，否则探测失败。选择TCP端口探测方式，必须指定应用监听的端口。比如有一个nginx应用组件，它的服务端口是80，对该应用组件配置了TCP端口探测，指定探测端口为80，那么集群会周期性地对该应用组件的80端口发起TCP连接，如果连接成功则证明检查成功，否则检查失败。
执行命令检查
 命令检查方式要求用户指定一个应用组件内的可执行命令，集群会周期性地在应用组件内执行该命令，如果命令的返回结果是0则检查成功，否则检查失败。

对于上面提到的TCP端口检查和HTTP请求检查，都可以通过执行命令检查的方式来替代：
- 对于TCP端口探测，可以使用程序来对应用组件的端口进行连接尝试，如果连接成功，脚本返回0，否则返回-1。
- 对于HTTP请求探测，可以使用脚本来对应用组件进行wget：
  wget http://127.0.0.1:80/health-check
  
  并检查response的返回码，如果返回码在200~399的范围，脚本返回0，否则返回-1。
  - 必须把要执行的程序放在应用组件的镜像里面，否则会因找不到程序而执行失败。
  - 如果执行的命令是一个shell脚本，由于集群在执行应用组件里的程序时，不在终端环境下，因此不能直接指定脚本为执行命令，需要加上脚本解释器。比如脚本是/data/scripts/health_check.sh，那么使用执行命令检查时，指定的程序应该是sh /data/scripts/health_check.sh。究其原因是集群在执行应用组件里的程序时，不在终端环境下。

GRPC检查
 GRPC检查可以为GRPC应用程序配置启动、活动和就绪探针，而无需暴露任何HTTP端点，也不需要可执行文件。Kubernetes可以通过GRPC连接到工作负载并查询其状态。
- GRPC检查仅在Kubernetes v1.25及以上版本集群中支持。
- 使用GRPC检查时，您的应用需支持GRPC健康检查协议。
- 与HTTP和TCP探针类似，如果配置错误，都会被认作是探测失败，例如错误的端口、应用未实现健康检查协议等。

公共参数说明

表1 公共参数说明
参数	参数说明
检测周期/秒	探针检测周期，单位为秒。例如，设置为30，表示每30秒检测一次。
延迟时间/秒	延迟检查时间，单位为秒，此设置与业务程序正常启动时间相关。例如，设置为30，表明应用启动后30秒才开始健康检查，该时间是预留给业务程序启动的时间。
超时时间/秒	超时时间，单位为秒。如果超过这个时间，本次健康检查就被视为失败。例如，设置为10，表明执行健康检查的超时等待时间为10秒。若设置为0或不设置，默认超时等待时间为1秒。
成功阈值	探测失败后，将状态转变为成功所需要的最小连续成功次数。例如，设置为1时，表明健康检查失败后，健康检查需要连续成功1次，才认为工作负载状态正常。默认值是1，最小值是1。存活和启动探测的这个值必须是1。
最大失败次数	当探测失败时重试的次数。存活探测情况下的放弃就意味着重新启动容器。就绪探测情况下的放弃，Pod会被打上未就绪的标签。

设置健康检查

选择“容器配置 > 健康检查”。
根据业务实际需求设置健康检查参数，相关公共参数说明请参考表1。

父主题： 管理容器部署组件容器配置

上一篇：设置应用日志策略

下一篇：管理容器部署组件应用配置

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

设置健康检查

健康检查方式

公共参数说明

设置健康检查

相关文档

意见反馈

文档内容是否对您有帮助？