一、说明与设置
1、问题
需要同时对上百台机器进行批量命令执行,执行时间过长
2、forks设置
Ansible提供一个forks的属性,可以设置运行并行进程数。这个值默认比较保守,只有5个并行进程。我们可以根据自己的机器性能以及网络情况来设
定,很多人使用50,也有用500以上的。如果有很多机器要管理的话,可以尝试先增加这个值,看看效果。有三个地方可以设置forks的数量:
环境变量:export ANSIBLE_FORKS=100
ansible.cfg这个配置文件里设置:forks=100
运行ansible命令时增加参数:-f 100
当机器数量比较大的时候,难免会有几台机器不能正常执行。这时候ansible会有提示to retry, use: --limit @/xxx/xxx.retry,
把它增加到上个命令的后面就好了。
二、ansible命令行试验
此处主要通过更改配置文件ansible.cfg的方式:forks=2
hosts配置了十几个ip
ansible all -m shell -a "sleep 300 ;echo 111" -i hosts
root 14780 25156 10 09:04 pts/6 00:00:08 /usr/bin/python3.6 /usr/bin/ansible all -m shell -a sleep 300 ;echo 111 -i hosts
root 14921 14780 0 09:04 pts/6 00:00:00 /usr/bin/python3.6 /usr/bin/ansible all -m shell -a sleep 300 ;echo 111 -i hosts
root 14923 14780 0 09:04 pts/6 00:00:00 /usr/bin/python3.6 /usr/bin/ansible all -m shell -a sleep 300 ;echo 111 -i hosts
确实产生了一个主shell进程和两个子shell进程
联想如果将其调整为比cpu核数还大会咋样
cpu核数为8,将forks调整为12
运行命令发现python进程有13个,符合预想
三、ansible-playbook并发限制
1、概述
ansible默认情况下只会创建5个进程,所以一次任务只能同时控制5台机器执行。
如果有大量的机器需要控制,或者希望减少进程数,那就可以采取异步执行(async),ansible的模块可以把task放进后台,然后轮询它(poll)。
使用async和poll这两个关键字便可以并行运行一个任务,即在所有机器上一次性运行。
async这个关键字会触发ansible并行运作任务,async的值是ansible等待运行这个任务的最大超时值(如果执行超时任务会强制中断导致失败),
而poll就是ansible检查这个任务是否完成的频率时间。
2、serial参数设置
serial在forks参数的基础上,进一步进行约定,从而实现指定数目的服务器执行完成playbook之后,才会在其他服务器上执行的操作。
这种方式,类似于滚动更新。
#一般情况下, ansible会同时在所有服务器上执行用户定义的操作,
#但是用户可以通过serial参数来定义同时可以在多少太机器上执行操作
1、指定数值
- hosts : all
serial: 7
2、百分百
- name: test play
hosts: webservers
serial: "30%"
3、列表
- name: test play
hosts: webservers
serial:
- 1
- 5
- 10
第一次执行的时候,从指定的所有服务器中挑选1台,执行playbook中的所有task,第二次执行的时候,从指定的所有服务器中选中5台执行playbook
中的所有task,第三次执行,从指定的所有服务器中选中10台执行playbook中的所有task,此时如果还有未执行过的服务器,则按照forks定义的数量并行执行
4、数字与百分数混合使用
- name: test play
hosts: webservers
serial:
- 1
- "50%"
从指定的服务器中选择1台执行playbook,当执行完成之后,从剩余主机中选择全部主机总数的50%的主机执行playbook,
此时如果还有未执行过的指定主机,则按照forks的指定参数,并行执行。
5、案例分析
- hosts : all
serial: 7
tasks :
- name: Install telnet
yum: name=telnet state=installed
- name : Run Serverstart.sh
command : /bin/bash /opt/scripts/Serverstart.sh
async : 300
poll : 10
register: kevin_result
#如上配置,发现当ansible配置控制超过5台机器时,上面ansible中:
# a)yum模块会先在5台机器上跑,完成后再继续剩余2台的机器;
# b)command模块的任务会一次性在所有机器上都执行了,然后监听它的回调结果;
#这里需要注意下面两种情况
# a)情况一: 设置poll=0
# 如果上面command模块是控制机器开启一个进程放到后台,
# 那就不需要检查这个任务是否完成了,只需要继续其他的动作,
# 最后再使用wait_for这个模块去检查之前的进程是否按预期中开启了便可。
# 这时只需要把poll这个值设置为0, 便可以按上面的要求配置ansible不等待job的完成。
# b)情况二: 设置async=0
# 如果有一种需求是有一个task它是需要运行很长的时间,那就需要设置一直等待这个job完成。
# 这个时候只需要把async的值设成0便可。
#简单总结下,适合使用到ansible的polling特性的场景
# - 有一个task需要运行很长的时间,这个task很可能会达到timeout;
# - 有一个任务需要在大量的机器上面运行;
# - 有一个任务是不需要等待它完成的;
#不适合使用polling特性的场景
# - task任务是需要运行完后才能继续另外的任务的;
# - task任务能很快的完成;
3、max_fail_percentage
max_fail_percentage:最大失败百分比
#默认情况下, 只要ansible的group中还有server没有失败, ansible就是继续执行tasks。
#实际上, 用户可以通过max_fail_percentage(最大失败百分比)来限制ansible的并发执行。
#只要超过max_fail_percentage的server失败, ansible就可以中止tasks的执行。
#serial参数在ansible-1.8以后就开始支持百分比功能了!!
#试想一下如果group组里有200台机器,那么如果使用serial来限制并发数量,
#比如设置serial=10,意思就是一次只执行10台,一直到200台完成。
#只要组内还有server没有失败, ansible就是继续执行tasks。这样就显得效率很低了,很不方便!
#这时就可以使用类似控制流的max_fail_percentage功能了!!
- hosts : all
max_fail_percentage: 30
serial: 10
tasks :
- name: Install telnet
yum: name=telnet state=installed
- name : Run Serverstart.sh
command : /bin/bash /opt/scripts/Serverstart.sh
async : 300
poll : 10
register: kevin_result
#如上配置,即10台机器里有30%的机器执行yum模块的task任务失败,
#那么就终止这个10台机器的task任务的执行,接着执行下一组10台机器的task任务,这样效果就很棒了。
#温馨提示:
#实际失败机器必须大于这个百分比时, tasks任务才会被中止;
#如果等于这个百分比时,task任务是不会被终止的