社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

只要3分钟,Python生成器原理详解

马哥Linux运维 • 7 年前 • 809 次点击  



翻译:你逗比

segmentfault.com/a/1190000011330511


这篇文章是对 500 Lines or Less 一书中高效爬虫一章的部分翻译,原文:How Python Generators Work。建议结合《流畅的 Python》食用。


在掌握 Python 生成器之前,你必须了解常规 Python 函数的工作原理。通常,当一个 Python 函数调用子程序(subroutine)时,这个子程序将一直持有控制权,只有当子程序结束(返回或者抛出异常)后,控制权才还给调用者:


>>> def foo():

...     bar()

...

>>> def bar():

...     pass


标准的 Python 解释器是用 C 写的。解释器用一个叫做 PyEval_EvalFrameEx 的 C 函数来执行 Python 函数。它接受一个 Python 的堆栈帧(stack frame)对象,并在这个堆栈帧的上下文中执行 Python 字节码。这是 foo 的字节码:


>>> import dis

>>> dis.dis(foo)

  2           0 LOAD_GLOBAL              0 (bar)

              3 CALL_FUNCTION            0 (0 positional, 0 keyword pair)

              6 POP_TOP

              7 LOAD_CONST               0 (None)

             10 RETURN_VALUE


foo 函数将 bar 加载到堆栈中并调用它,然后从堆栈中弹出返回值,最后加载并返回 None。


当 PyEval_EvalFrameEx 遇到 CALL_FUNCTION 字节码的时候,它会创建一个新的 Python 堆栈帧,然后用这个新的帧作为参数递归调用 PyEval_EvalFrameEx 来执行 bar。


Python 的堆栈帧是分配在堆内存中的,理解这一点非常重要!Python 解释器是个普通的 C 程序,所以它的堆栈帧就是普通的堆栈。但是它操作的 Python 堆栈帧是在堆上的。除了其他惊喜之外,这意味着 Python 的堆栈帧可以在它的调用之外存活。(FIXME: 可以在它调用结束后存活)。要以交互方式查看,请从 bar 内保存当前帧:


>>> import inspect

>>> frame = None

>>> def foo():

...     bar()

...

>>> def bar():

...     global frame

...     frame = inspect.currentframe()

...

>>> foo()

>>> # The frame was executing the code for 'bar'.

>>> frame.f_code.co_name

'bar'

>>> # Its back pointer refers to t

>>> def bar():

...     global frame

...     frame = inspect.currentframe()he frame for 'foo'.

>>> caller_frame = frame.f_back

>>> caller_frame.f_code.co_name

'foo'


现在这项技术被用到了 Python 生成器(generator)上——使用代码对象和堆栈帧这些相同的组件来产生奇妙的效果。


这是一个生成器函数(generator function):


>>> def gen_fn():

...     result = yield 1

...     print('result of yield: {}'.format(result))

...     result2 = yield 2

...     print('result of 2nd yield: {}'.format(result2))

...     return 'done'

...


当 Python 将 gen_fn 编译为字节码时,它会看到 yield 语句,然后知道 gen_fn 是个生成器函数,而不是普通函数。它会设置一个标志来记住这个事实:


>>> # The generator flag is bit position 5.

>>> generator_bit = 1 << 5

>>> bool( gen_fn.__code__.co_flags & generator_bit)

True


当你调用一个生成器函数时,Python 会看到生成器标志,实际上并不运行该函数,而是创建一个生成器(generator):


>>> gen = gen_fn()

>>> type(gen)

<class 'generator'>


Python 生成器封装了一个堆栈帧和一个对生成器函数代码的引用,在这里就是对 gen_fn 函数体的引用:


>>> gen.gi_code.co_name

'gen_fn'


调用 gen_fn 产生的所有生成器都指向同一个代码对象,但是每个都有自己的堆栈帧。这个堆栈帧并不存在于实际的堆栈上,它在堆内存上等待着被使用


堆栈帧有个 “last instruction”(FIXME: translate this or not?) 指针,指向最近执行的那条指令。刚开始的时候 last instruction 指针是 -1,意味着生成器尚未开始:


>>> gen.gi_frame.f_lasti

-1


当我们调用 send 时,生成器达到第一个 yield 处然后暂停执行。send 的返回值是 1,这是因为 gen 把 1 传给了 yield 表达式:


>>> gen.send(None)

1


现在生成器的指令指针(instruction pointer)向前移动了 3 个字节码,这些是编译好的 56 字节的 Python 代码的一部分:


>>> gen.gi_frame.f_lasti

3

>>> len(gen.gi_code.co_code)

56


生成器可以在任何时候被任何函数恢复执行,因为它的堆栈帧实际上不在堆栈上——它在堆(内存)上。生成器在调用调用层次结构中的位置不是固定的,它不需要遵循常规函数执行时遵循的先进后出顺序。生成器被是被解放了的,它像云一样浮动。


我们可以将 “hello” 发送到这个生成器中,它会成为 yield 表达式的值,然后生成器会继续执行,直到产出(yield)了 2:


>>> gen.send('hello')

result of yield: hello

2


现在这个生成器的堆栈帧包含局部变量 result:


>>> gen.gi_frame.f_locals

{'result': 'hello'}


从 gen_fn 创建的其他生成器将具有自己的堆栈帧和局部变量。


当我们再次调用 send 时,生成器将从它第二个 yield 处继续执行,然后以产生特殊异常 StopIteration 结束:


>>> gen.send('goodbye')

result of 2nd yield: goodbye

Traceback (most recent call last):

    File "", line 1, in <module>

StopIteration: done


异常有一个值,它是那个生成器的返回值:字符串 “done”。





————广告时间————


马哥教育2017年Python自动化运维开发实战班,马哥联合BAT、豆瓣等一线互联网Python开发达人,根据目前企业需求的Python开发人才进行了深度定制,加入了大量一线互联网公司:大众点评、饿了么、腾讯等生产环境真是项目,课程由浅入深,从Python基础到Python高级,让你融汇贯通Python基础理论,手把手教学让你具备Python自动化开发需要的前端界面开发、Web框架、大监控系统、CMDB系统、认证堡垒机、自动化流程平台六大实战能力,让你从0开始蜕变成Hold住年薪20万的Python自动化开发人才

扫描二维码领取学习资料


更多Python好文请点击【阅读原文】哦

↓↓↓



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/weIeq1QCtG
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/3909
 
809 次点击