一、GIL全局解释器锁
1、GIL锁不是python的特点。而是cpython的特点。
2、在cpython解释器中,GIL是一把互斥锁,用来保证进程中同一个时刻只有一个线程在执行。
3、在没有GIL锁的情况下,有可能多线程在执行一个代码的同时,垃圾回收机制对所执行代码的变量直接进行回收,其他的线程再使用该变量时会导致运行错误。
二、为什么会有GIL锁?
python使用引用计数为主,标记清楚和隔代回收为辅来进行内存管理。所有python脚本中创建的对象,都会配备一个引用计数,来记录有多少个指针来指向它。当对象的引用技术为0时,会自动释放其所占用的内存。
假设有2个python线程同时引用一个数据(a=100,引用计数为1),
2个线程都会去操作该数据,由于多线程对同一个资源的竞争,实际上引用计数为3,
但是由于没有GIL锁,导致引用计数只增加1(引用计数为2)
这造成的后果是,当第1个线程结束时,会把引用计数减少为1;当第2个线程结束时,会把引用计数减少为0;
当下一个线程再次视图访问这个数据时,就无法找到有效的内存了**
三、多线程无法利用多核优势?
由于GIL锁的存在,即使是多个线程处理任务,但是最终只有一个线程在工作,那么是不是多线程真的一点用处都没有了呢?
对于需要执行的任务来说,分为两种:计算密集型、IO 密集型
假如一个计算密集型的任务需要10s的执行时间,总共有4个这样的任务
在 4核及以上的情况下:
多进程:需要开启 4 个进程,但是 4 个 CPU 并行,最终只需要消耗 10s 多一点的时间。
多线程:只需要开1 个进程,这个进程开启 4 个线程,开启线程所消耗的资源很少,但是由于最终执行是只有一个 CPU 可以工作,所以最终消耗 40s 多的时间。
假如是多个 IO密集型 的任务
CPU 大多数时间是处于闲置状态,频繁的切换
多进程:进程进行切换需要消耗大量资源
多线程:线程进行切换并不需要消耗大量资源
计算密集型和IO密集型
计算密集型:要进行大量的数值计算,例如进行上亿的数字计算、计算圆周率、对视频进行高清解码等等。这种计算密集型任务虽然也可以用多任务完成,但是花费的主要时间在任务切换的时间,此时CPU执行任务的效率比较低。
IO密集型:涉及到网络请求(time.sleep())、磁盘IO的任务都是IO密集型任务,这类任务的特点是CPU消耗很少,任务的大部分时间都在等待IO操作完成(因为IO的速度远远低于CPU和内存的速度)。对于IO密集型任务,任务越多,CPU效率越高,但也有一个限度。
计算密集型——采用多进程
执行时间为: 4.062887668609619
from multiprocessing import Process
import time
def func1():
sum=0
for i in range(100000000):
sum+=1
print(sum)
if __name__ == '__main__':
now=time.time()
l=[]
for i in range(10):
p=Process(target=func1)
p.start()
l.append(p)
for p in l:
p.join()
end=time.time()
print('执行时间为:',end-now)
计算密集型——采用多线程
执行时间为: 27.6159188747406
from threading import Thread
import time
def func1():
sum=0
for i in range(100000000):
sum+=1
print(sum)
if __name__ == '__main__':
now=time.time()
l=[]
for i in range(10):
p=Thread(target=func1)
p.start()
l.append(p)
for p in l:
p.join()
end=time.time()
print('执行时间为:',end-now)
IO密集型——采用多进程
执行时间为: 5.388434886932373
from multiprocessing import Process
import time
def func1():
time.sleep(2)
if __name__ == '__main__':
now=time.time()
l=[]
for i in range(100):
p=Process(target=func1)
p.start()
l.append(p)
for p in l:
p.join()
end=time.time()
print('执行时间为:',end-now)
IO密集型——采用多线程
执行时间为: 2.0174973011016846
from threading import Thread
import time
def func1():
time.sleep(2)
if __name__ == '__main__':
now=time.time()
l=[]
for i in range(100):
p=Thread(target=func1)
p.start()
l.append(p)
for p in l:
p.join()
end=time.time()
print('执行时间为:',end-now)
四、总结
对于IO密集型应用,即便有GIL存在,由于IO操作会导致GIL释放,其他线程能够获得执行权限。由于多线程的通讯成本低于多进程,因此偏向使用多线程。
对于计算密集型应用,由于CPU一直处于被占用状态,GIL锁直到规定时间才会释放,然后才会切换状态,导致多线程处于绝对的劣势,此时可以采用多进程+协程。