Python高效编程|itertools 模块

*此推文对应3.8.5版本

我们之前简单使用涉及过几次迭代器的处理（比如切片时使用 islice），如果直接对其进行操作，多半会报「TypeError」的错误。今天再拓展的几个 itertools模块的使用

chain()

itertools.chain(*iterables)用于拼接可迭代对象中的所有元素，创建一个新的迭代器。

import itertools
x = itertools.chain("ABC", "DEF")
print(list(x))

# 输出结果如下
['A', 'B', 'C', 'D', 'E', 'F']

combinations()

itertools.combinations(iterable, r)，返回由输入 iterable中元素组成长度为 r 的子序列，可以理解为有序枚举，若元素的值有重复也依样会保留。

import itertools
print(list(itertools.permutations('ABCD', 2)))

# 输出结果如下
[('A', 'B'), ('A', 'C'), ('A', 'D'), ('B', 'C'), ('B', 'D'), ('C', 'D')]

## 全排列组合
print(list(itertools.permutations('ABCD', 2)))
# 输出结果如下
[('A', 


    
'B'), ('A', 'C'), ('A', 'D'), ('B', 'A'), ('B', 'C'), ('B', 'D'), ('C', 'A'), ('C', 'B'), ('C', 'D'), ('D', 'A'), ('D', 'B'), ('D', 'C')]

compress()

itertools.compress(data, selectors)，创建一个迭代器，它返回 data 中经 selectors 判断为 True 的元素。迭代器在两者较短的长度处停止。

import itertools
print(list(itertools.compress('ABCDEF', [1,0,1,0,1,1])))

# 输出结果如下
['A', 'C', 'E', 'F']

takewhile()

itertools.takewhile(predicate, iterable)，创建一个迭代器，如果 predicate为true，从可迭代对象中返回元素。

import itertools
print(takewhile(lambda x: x<5, [1,4,6,4,1]))




    
# 输出结果如下
[1, 4]

# 相反就可以使用 dropwhile()
[6, 4, 1]

dropwhile()中，从不满足条件开始，返回其他元素，也就是保留不满足条件的元素。

groupby()

itertools.groupby(iterable, key=None)，创建一个迭代器，根据 key 函数的返回值将拥有相同返回值的元素分到一个新的迭代器。

class groupby:
    # [k for k, g in groupby('AAAABBBCCDAABBB')] --> A B C D A B
    # [list(g) for k, g in groupby('AAAABBBCCD')] --> AAAA BBB CC D

更常见的是先限定一个范围，可以用作分类及统计等，举一个网络上的例子：

import itertools
def conditions(score):
    if score > 80:
        return "A"
    elif score >= 60:
        return "B"
    else:
        return "C"

scores = [81, 82, 84, 76, 64, 78, 59, 44, 55, 89]
for m, n in itertools.groupby(scores, key=conditions):
    print(m, list(n))

# 输出结果如下
A [81, 82, 


    
84]
B [76, 64, 78]
C [59, 44, 55]
A [89]

需要注意的是，该函数使用的时候需要对函数进行排序，因为 groupby 在实际计算过程中，会随着key的改变，而生成一个新的分组。若要避免分类重复出现，上面的例子中可以通过 sorted()解决。

无限序列

主要有三个，很好理解，

import itertools
# count()
L = itertools.count(start=0, step=1)

# cycle()
L = itertools.cycle(iterable)

# repeat()
L = itertools.repeat(object[, times])

一般情况下，都会使用其他函数进行限制，例如：

import itertools

L = itertools.count(1)
a = itertools.takewhile(lambda x: x <= 10, L)

数据规模小的时候，通过for循环，全部载入内存后，再打印，也没啥问题，但是计算量大的时候，就要考虑如何写出高效利用内存的程序，在节省内存同时还能把事情办好。关于生成器(generator)还有更多的方法，可以参见原文链接。

推荐阅读

•数据挖掘学习班第5期（线上直播3周，马拉松式陪伴，带你入门），原价4800的数据挖掘全套课程，疫情期间半价即可抢购。

•生信爆款入门-第7期（线上直播4周，马拉松式陪伴，带你入门），原价9600的生信入门全套课程，疫情期间3.3折即可抢购。

如果你课题涉及到转录组，欢迎添加一对一客服：详见：你还在花三五万做一个单细胞转录组吗？

Python高效编程|itertools 模块

chain()

combinations()

compress()

takewhile()

groupby()

无限序列

Python3.9 值得关注的更新点

python魔法方法是什么

如何将pdf转换为word 3.0

使用 Python 操作 word文档

好看又好用的python可视化包

4种绘制带误差线的柱形图

Python高效编程|itertools 模块

chain()

combinations()

compress()

takewhile()

groupby()

无限序列

Python3.9 值得关注的更新点

python魔法方法是什么

(adsbygoogle = window.adsbygoogle || []).push({}); 如何将pdf转换为word 3.0

使用 Python 操作 word文档

好看又好用的python可视化包

4种绘制带误差线的柱形图

如何将pdf转换为word 3.0