社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

天啦噜!Python多线程居然是骗人的?

码小辫 • 4 年前 • 327 次点击  

码小辫
专注更多编程视频和电子书
天天在用钱

Python解释执行原理

我是一个Python线程,我的工作就是解释执行程序员编写的Python代码。

之所以说是解释执行,是因为Python是高级语言,CPU那家伙不认识Python代码,需要运行的时候动态翻译成CPU指令。

我把Python源代码经过“编译”以后,变成了一个个的字节码文件:.pyc,这是一个二进制的文件,人类是看不懂的,只有我才能看懂。

然后我的工作就简单了,不断的取出字节码文件中的“指令”解释执行,直到所有指令都执行完成,我就可以休息了。

GIL

后来,多线程编程技术流行了起来,进程里不止我一个线程了,又来了几个新的伙伴。

本以为我们能和平共处,没想到这一来就麻烦了,我们几个各干各的,经常把内存空间搞出问题,也找不到背锅的人。

终于有一天,我实在忍受不了了,召集大家商讨个解决办法。

“小伙伴们,咱们不能再这样各搞各的了,咱们是一个Team,要彼此协作,一个线程可以走的很快,但一群线程在一起才能走的更远呐!”

“老大,你有什么想法你就直说吧”,另一个线程说到。

“要不,咱们加个锁吧!简单快捷,每个线程要执行代码,都得来申请这个锁,申请到了才能执行,否则就得等着”,我说到。

“那什么时候释放呢?”

“要不弄个计数器,每个线程数到100就释放,这样保证别人有机会来执行?”

“那怎么计数呢?每执行一个字节码就计数一次吗?”

“可以,不过也不用那么死板,有些指令比较简单的,很快可以完成,就可以不用计数了”

“好是好,但要是还没数够100,却在执行I/O操作阻塞了,还把锁霸占的话,那不是资源浪费吗?”

小伙伴们七嘴八舌的讨论着。

我想了想说到:“那就这样,把两种情况结合一下,常规情况下数到100就释放一次锁,但如果遇到阻塞情况,也要提前释放锁,怎么样?”

大伙纷纷点头,达成了一致,随后我们还给这个锁取了一个名字:全局解释器锁GIL

自从用上了GIL,我们大家伙干活都规矩多了,再也没有出现把公共资源搞坏的情况了。

升级版GIL

再后来,多核技术开始兴起了,一个CPU里面可以同时执行多个线程。小伙伴们高兴地把这个消息散播开了。

“老大,现在CPU有多核了,咱们可以一起执行了,可不可以把那个GIL给去掉啊,这样才能利用多核的优势啊。”

“是啊,隔壁Java线程老是嘲笑我们看起来人多,实际只有一个线程在执行”

可说易行难,这么多年我们都是这样工作的,要突然去掉,出了问题谁也不敢负责啊。

“可是老大,现在这个GIL锁不公平”,新来的线程抱怨到。

“哪里不公平了?”

“我准备执行代码,发现锁在你的手里,只好原地等待,等了半天都睡着了,好不容易等到你释放了,操作系统把我给唤醒,准备去申请锁,结果发现又被你抢到了,真是浪费表情”,新的线程满脸委屈。

“是啊,老大,我也发现了,这不是偶发现象,我观察很久了,经常都会发生!频繁被唤醒,却发现白忙活一场,白白浪费CPU资源,大家都怨气很大啊”,另一个线程伙伴也说到。

我有些不好意思,“嗯,这确实是个问题”

“还没完呢”,新来的线程继续说到:“现在按照字节码指令数来统计,但有些指令码简单,有些很复杂,导致同样数到100,有些线程可以运行很久,而有些就运行很快就结束了,也不公平”

小伙伴们提的问题都很重要,看来是时候对GIL进行一次升级了。

经过一阵激烈的讨论,我们改进了原来对GIL,用上了新的策略:

  • 不再用计数的方式,改用时间片的方式:每个线程的执行时间片是5000微秒。
  • 为了保证释放GIL后,不被自己马上又抢到,新增了一个锁实现强制线程切换

改进以后,这下总算公平了,各位小伙伴再也没有话说,又可以安心的工作了。

结语

Python是一门解释执行的语言,拥有强大的第三方库和跨平台能力,近几年Python焕发了第二春,横扫爬虫、web开发、机器学习等众多领域。

但长期以来,Python最为人诟病的就是它有一把锁:GIL,这把锁让Python无法真正的实现多线程执行,无法利用多核CPU的高性能。

实际上,这个锁跟Python没有半毛钱的关系,而是负责解释执行Python的解释器:CPython的锅。

CPython是用C语言编写的Python解释器,也是最广为使用的Python解释器,一般在没有特殊说明时,说Python指的就是这个CPython解释器。

Python诞生之初,多线程技术还远没有今天这么深入人心,甚至多核CPU也是Python诞生许多年后才出现的。早期的解释器中为了支持多个线程,使用了粗暴的GIL来进行控制,方便简单的同时,也成为了CPython的巨大历史包袱。

在Python3.2之前,Python使用简单的计数法来统计控制每个线程执行的时间。在这之后,引入了更为公平的时间片方式来升级替换。

过去二十年,曾经有许许多多大牛都尝试彻底去除GIL,但都没有完美成功。

虽然Python没能彻底去除GIL,好在,提供了其他几种方式“曲线救国”实现并发:

  • Ctypes 通过编写C语言扩展与Python交互,在C语言层面绕过GIL实现多核利用。

  • MultiProcess Python提供了MultiProcess,通过多进程的方式绕过GIL

  • 协程 协程又称用户态线程,Python3.4版本后新增了对协程的支持,也是对性能的提升提供了一种选择。

这篇文章用第一人称大白话的方式讲述了GIL在CPython解释器中的工作原理,大家都理解了吗?

-END-

   小贴士

隐藏菜单:返回上一级 回复 “ 1024 "关键词,即可获取内部学习资料

一个认真分享的小编

前沿技术 /名气内推 /干货分享

商务合作:dot3721
长按左侧二维码添加

点分享

点点赞

点在看

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/106677
 
327 次点击