在没有HEALTHCHECK指令之前,Docker只能通过process是否退出来判断contAIner的状态,不过有时候服务已经无法正常运作了,但process没有退出,这样会导致该服务仍然可以接收用户请求,但是无法正常响应。我们需要对这种容器进行识别并自动重启。
今天我们接着上次的docker健康检查机制那篇文章,讲述一下如何给不健康的容器进行重启。新近关注的用户可以点击后面的链接查看如何添加健康检查机制,巧用Docker健康检查,让你的容器如虎添翼。另外有读者反馈有几个参数不是很理解,我们会在这篇文章里再补充讲解一下。
Docker在1.12版本之后提供了HEALTHCHECK指令,可以设定一行command用来判断服务的状态是否正常,这样可以更准确地判断服务状态。
HEALTHCHECK Container启动后的初始状态为starting,在指令检查成功后,状态会更改为healthy,如果连续失败超过指定次数则会改为unhealthy。看下HealthCheck的工作机制。
HEALTHCHECK参数选项:
--interval: Health check时间间隔,预设为30秒
--timeout:当Health check超过此设定的时间,则会视为失败,预设为30秒
--retries:当Health check连续失败次数超过此设定时,则会将状态更改为,预设为3次unhealthy
--start-period:启动时间,预设为0秒
HEALTHCHECK可以通过Dockerfile或是docker-compose.yml设定:
在Dockerfile中,HEALTHCHECK指令格式为
HEALTHCHECK [options] CMD <command>
<command>可以是shell指令或是exec格式(和其他Dockerfile指令相同,可以参考ENTRYPOINT)。而一个Dockerfile中只能有一个HEALTHCHECK指令,如果同时有多个HEALTHCHECK指令,则只有最后一个有效。
<command>的返回值代表container的状态:
0:成功,container is healthy
1:失败,如果失败超过指定次数,则container为unhealthy
2: reserved,不要使用这个值
假设我们的container服务是web服务,我们可以使用来检查服务是否正常运行,例如:每30秒检查一次是否可在5秒内响应请求:curl http://localhost:3000
# ...
HEALTHCHECK --interval=30s --timeout=5s --retries=5 --start_period=30s
CMD curl -fs http://localhost:3000/ || exit 1
# ...
docker-compose.yml的healthcheck,示例如下:
version: "3.7"
services:
api:
restart: always
image: api
container_name: api
ports:
- 3000:3000
build:
context: ./api
healthcheck:
test: curl -fs http://localhost:3000/ || exit 1
interval: 30s
timeout: 5s
retries: 5
start_period: 30s
.NETworks:
- net
networks:
net:
name: net
driver: bridge
其中test必须是string或list.如果是list,第一个item必须是NONE,或CMD-SHELL。如果是string,则等同于CMD-SHELL。
确认健康状态
在设定好health check指令之后,接着启动container,检查container状态时可以看到初始状态是:health: starting
$ docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
6c7b9ca321d2 api:1.0.0 "uwsgi --ini /home/d…" 5 seconds ago Up 2 seconds (health: starting) 0.0.0.0:3000->3000/tcp api
过30秒之后再执行一次docker ps,可以看到container的状态变成:healthy
$ docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
6c7b9ca321d2 api:1.0.0 "uwsgi --ini /home/d…" 35 seconds ago Up 32 seconds (healthy) 0.0.0.0:3000->3000/tcp api
而如果连续失败超过指定次数,状态会变成unhealthy。
以上的步骤只有检查container的健康状态,但没有针对unhealthy container做任何处理,这部分我们可以搭配docker-autoheal来重启unhealthy container。先看下AutoHeal的工作机制。
autoheal可以直接使用docker执行,或是写在docker-compose中:
使用 docker 指令:
$ docker run -d
--name autoheal
--restart=always
-e AUTOHEAL_CONTAINER_LABEL=all
-v /var/run/docker.sock:/var/run/docker.sock
willfarrell/autoheal
使用docker-compose指令:
version: "3.7"
services:
autoheal:
restart: always
image: willfarrell/autoheal
container_name: autoheal
environment:
- AUTOHEAL_CONTAINER_LABEL=all
volumes:
- /var/run/docker.sock:/var/run/docker.sock
然后执行 docker-compose up -d autoheal 就可以启动。
启动之后可以通过docker ps观察unhealthy的容器是否重启了。也可以查看autoheal的日志查看是否有启动记录。
最后再给大家介绍一种模拟unhealthy的方法,正常情况下都是healthy的,可以通过修改命令来模拟unhealthy。比如模拟MySQL的服务,我们可以使用如下命令。
test: ["CMD", "nc -vz localhost 3307 || exit 1"]
正常监听3306端口,我们用3307连接检查,就会一直处于unhealthy状态,这个时候我们可以通过autoheal的日志观察到对mysql容器的重启。
有了这个机制,以后docker假死的情况就可以自动重启了。这个检查和自动重启机制对于数据库或者Tomcat服务都非常有用。