健康检查是指应用组件在运行过程中,根据需要,定时检查应用健康状况。
平台提供了两种健康检查的方式:
- 组件存活探针:该检查方式用于检测应用组件是否存活,类似于执行ps命令检查进程是否存在。如果应用组件的存活检查失败,集群会对该应用组件执行重启操作;若应用组件的存活检查成功则不执行任何操作。
- 组件业务探针:该检查方式用于检测应用组件是否准备好开始处理用户请求。一些程序的启动时间可能很长,比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服务。这时候程序进程存在,但是并不能对外提供服务。这种场景下该检查方式就非常有用。如果应用组件的就绪检查失败,集群会屏蔽请求访问该组件;若检查成功,则会开放对该应用组件的访问。
健康检查方式
- HTTP请求检查
HTTP请求方式针对的是提供HTTP/HTTPS服务的应用组件,集群周期性地对该应用发起HTTP/HTTPS
GET请求,如果HTTP/HTTPS
response返回码属于200~399范围,则证明探测成功,否则探测失败。使用HTTP请求探测必须指定应用监听的端口和HTTP/HTTPS的请求路径。
例如:提供HTTP服务的应用组件,端口为80,HTTP检查路径为/health-check,主机地址为containerIP,那么集群会周期性地对应用发起如下请求:
GET http://containerIP:80/health-check
说明HTTP请求检查中的主机地址,如果不填写,默认为实例IP。
- TCP端口检查
对于提供TCP通信服务的应用,集群周期性地对该应用建立TCP连接。如果连接成功,则证明探测成功,否则探测失败。选择TCP端口探测方式,必须指定应用监听的端口。比如有一个nginx应用组件,它的服务端口是80,对该应用组件配置了TCP端口探测,指定探测端口为80,那么集群会周期性地对该应用组件的80端口发起TCP连接,如果连接成功则证明检查成功,否则检查失败。
- 执行命令检查
命令检查方式要求用户指定一个应用组件内的可执行命令,集群会周期性地在应用组件内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。
对于上面提到的TCP端口检查和HTTP请求检查,都可以通过执行命令检查的方式来替代:
−对于TCP端口探测,可以使用程序来对应用组件的端口进行connect,如果connect成功,脚本返回0,否则返回-1。
−对于HTTP请求探测,可以使用脚本来对应用组件进行wget:
wget http://127.0.0.1:80/health-check
并检查response的返回码,如果返回码在200~399的范围,脚本返回0,否则返回-1。
注意必须把要执行的程序放在应用组件的镜像里面,否则会因找不到程序而执行失败。
如果执行的命令是一个shell脚本,由于集群在执行应用组件里的程序时,不在终端环境下,因此不能直接指定脚本为执行命令,需要加上脚本解释器。比如脚本是/data/scripts/health_check.sh,那么使用执行命令检查时,指定的程序应该是sh
/data/scripts/health_check.sh。究其原因是集群在执行应用组件里的程序时,不在终端环境下。
操作步骤
1、进入应用健康检查设置界面:
- 在部署应用组件的组件配置过程中设置健康检查,请执行步骤6。
- 组件已经部署完成后设置健康检查,请执行步骤2。
2、登录ServiceStage控制台,选择“应用管理 > 应用列表”。可查看到所有应用。
3、单击应用名称,进入应用“概览”页。
4、在“环境视图”页签,选择“环境”,可以看到已经部署在该环境下的应用组件。
5、单击应用组件名称,进入应用组件实例“概览”页,单击“更新升级”。
6、展开“高级设置 > 运维监控”,在“健康检查”页签,根据业务实际需求设置健康检查参数。
7、完成应用健康检查设置:
- 在部署应用组件的组件配置过程中设置应用健康检查,单击“下一步 规格确认”,完成组件部署。
- 组件已经部署完成后设置应用健康检查,单击“重新部署”。