创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

【AI】人工智能70年：从图灵测试到ChatGPT的进化史

NotebookLM 开源平替，暴涨 12000+ GitHub Star！

Python爬虫超详细讲解（零基础入门，老年人都看的懂）

机器学习学术速递[12.9]

机器学习学术速递[12.10]

ChatGPT 三周年之际，我怀念它写得很烂的时候

2025必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...

机器学习学术速递[12.8]

计算催化新突破！重庆大学 & 重庆师范大学JACS: 机器学习力场捕捉银纳米团簇电化学动态重构与配体...

MATLAB数据分析、机器学习与深度学习实践应用高级培训班

关注

Py学习 » Python

python性能:嵌套列表上的迭代和操作

J.J. • 6 年前 • 1900 次点击

问题嘿,乡亲们。我正在寻找一些关于Python性能的建议。关于我的问题的一些背景:

鉴于:

一 (x,y) 节点网格,每个节点都有一个值 (0...255) 从0开始
一览表 N 输入范围内指定位置的坐标 (0...x, 0...y)
一个值 Z 定义节点计数中的“邻域”

在输入坐标和节点的相邻位置增加节点的值。网格边缘之外的邻居将被忽略。(没有包装)

基本情况: 大小的网格 1024x1024 节点,与 400 输入坐标和范围 Z 属于 75 节点。

处理应该是 O(x*y*Z*N) . 我希望x、y和z在基本情况下大致保持在值的周围,但是输入坐标n的数量可能会增加到100000个。 我的目标 是为了减少处理时间。

当前结果 在我的开始和下面的注释之间,我们有几个实现。

我的2.26 GHz Intel Core 2 Duo与python 2.6.1的运行速度:

  f1: 2.819s
  f2: 1.567s
  f3: 1.593s
   f: 1.579s
 f3b: 1.526s
  f4: 0.978s

f1 是初始的简单实现:三个嵌套 for 循环。 f2 是代替内在的 对于 循环使用列表理解。 f3 根据安德烈在评论中的建议,替换了外部 对于 具有 map() f 克里斯的建议是否在下面的答案中? f3b 克丽丝是不是喜欢上了? F3 f4 是亚历克斯的贡献。

下面的代码供您阅读。

问题如何进一步缩短处理时间?测试参数我更喜欢Sub-1.0s。

拜托, 保留对本机python的建议。我知道我可以转到第三方软件包,比如 numpy 但是我想避免任何第三方软件包。此外,我还生成了随机输入坐标,并简化了节点值更新的定义,使我们的讨论变得简单。具体情况必须稍微改变,超出我的问题范围。

多谢!

F1 是初始的简单实现:三个嵌套 对于 循环。

def f1(x,y,n,z):
    rows = [[0]*x for i in xrange(y)]

    for i in range(n):
        inputX, inputY = (int(x*random.random()), int(y*random.random()))
        topleft = (inputX - z, inputY - z)
        for i in xrange(max(0, topleft[0]), min(topleft[0]+(z*2), x)):
            for j in xrange(max(0, topleft[1]), min(topleft[1]+(z*2), y)):
                if rows[i][j] <= 255: rows[i][j] += 1

F2 是代替内在的 对于 循环使用列表理解。

def f2(x,y,n,z):
    rows = [[0]*x for i in xrange(y)]

    for i in range(n):
        inputX, inputY = (int(x*random.random()), int(y*random.random()))
        topleft = (inputX - z, inputY - z)
        for i in xrange(max(0, topleft[0]), min(topleft[0]+(z*2), x)):
            l = max(0, topleft[1])
            r = min(topleft[1]+(z*2), y)
            rows[i][l:r] = [j+(j<255) for j in rows[i][l:r]]

更新: F3 基于 Andrei 意见中的建议并替换外部 对于 具有 MAP() . 我在这方面的第一次黑客攻击需要几个本地范围外的查找,特别是 recommended against Guido: 局部变量查找比全局或内置变量查找快得多 除了对主数据结构本身的引用之外,我对所有内容都进行了硬编码,以尽量减少开销。

rows = [[0]*x for i in xrange(y)]

def f3(x,y,n,z):
    inputs = [(int(x*random.random()), int(y*random.random())) for i in range(n)]
    rows = map(g, inputs)

def g(input):
    inputX, inputY = input
    topleft = (inputX - 75, inputY - 75)
    for i in xrange(max(0, topleft[0]), min(topleft[0]+(75*2), 1024)):
        l = max(0, topleft[1])
        r = min(topleft[1]+(75*2), 1024)
        rows[i][l:r] = [j+(j<255) for j in rows[i][l:r]]

更新3: ChristopeD 同时指出了一些改进。

def f(x,y,n,z):
    rows = [[0] * y for i in xrange(x)]
    rn = random.random
    for i in xrange(n):
        topleft = (int(x*rn()) - z, int(y*rn()) - z)
        l = max(0, topleft[1])
        r = min(topleft[1]+(z*2), y)
        for u in xrange(max(0, topleft[0]), min(topleft[0]+(z*2), x)):
            rows[u][l:r] = [j+(j<255) for j in rows[u][l:r]]

更新4: kriss 增加了一些改进 F3 ,将min/max替换为新的三元运算符语法。

def f3b(x,y,n,z):
    rn = random.random    
    rows = [g1(x, y, z) for x, y in [(int(x*rn()), int(y*rn())) for i in xrange(n)]]

def g1(x, y, z):
    l = y - z if y - z > 0 else 0
    r = y + z if y + z < 1024 else 1024
    for i in xrange(x - z if x - z > 0 else 0, x + z if x + z < 1024 else 1024 ):
        rows[i][l:r] = [j+(j<255) for j in rows[i][l:r]]

更新5: Alex 加入了他的实质性修订,增加了一个单独的 MAP() 操作将值上限设置为255并删除所有非本地范围查找。性能差异是非常重要的。

def f4(x,y,n,z):
    rows = [[0]*y for i in range(x)]
    rr = random.randrange
    inc = (1).__add__
    sat = (0xff).__and__

    for i in range(n):
        inputX, inputY = rr(x), rr(y)
        b = max(0, inputX - z)
        t = min(inputX + z, x)
        l = max(0, inputY - z)
        r = min(inputY + z, y)
        for i in range(b, t):
            rows[i][l:r] = map(inc, rows[i][l:r])
    for i in range(x):
      rows[i] = map(sat, rows[i])

此外,由于我们似乎都在用各种各样的方法进行黑客攻击,下面是我的测试工具来比较速度: (由Christophed改进)

def timing(f,x,y,z,n):
    fn = "%s(%d,%d,%d,%d)" % (f.__name__, x, y, z, n)
    ctx = "from __main__ import %s" % f.__name__ 
    results = timeit.Timer(fn, ctx).timeit(10)
    return "%4.4s: %.3f" % (f.__name__, results / 10.0)

if __name__ == "__main__":
    print timing(f, 1024, 1024, 400, 75)
    #add more here.

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/30333

文章 [ 5 ] | 最新文章 6 年前

• 1 楼

mkotechno 15 年前

您可以在C中创建自己的python模块,并根据需要控制性能: http://docs.python.org/extending/

• 2 楼

kriss 15 年前

基于你的f3版本,我用代码玩过。因为L和R是常量,所以可以避免在g1循环中计算它们。也使用新的 三元中频 而不是最小值和最大值似乎总是更快。也可以用左上角简化表达式。在我的系统中,使用下面的代码大约快20%。

def f3b(x,y,n,z):
    rows = [g1(x, y, z) for x, y in [(int(x*random.random()), int(y*random.random())) for i in range(n)]]

def g1(x, y, z):
    l = y - z if y - z > 0 else 0
    r = y + z if y + z < 1024 else 1024
    for i in xrange(x - z if x - z > 0 else 0, x + z if x + z < 1024 else 1024 ):
        rows[i][l:r] = [j+(j<255) for j in rows[i][l:r]]

• 3 楼

Ponkadoodle 15 年前

在您的f3重写中,g可以简化。(也可应用于F4)

在for循环中有以下代码。

l = max(0, topleft[1])
r = min(topleft[1]+(75*2), 1024)

但是,似乎这些值在for循环中永远不会更改。所以只计算一次,在循环之外。

• 4 楼

Blumer 15 年前

一 . 一个(较小的)加速肯定是您的 rows …

替换

rows = []
for i in range(x):
    rows.append([0 for i in xrange(y)])

具有

rows = [[0] * y for i in xrange(x)]

二 . 你也可以通过移动来避免一些查找 random.random 循环之外(节省一点)。

三。编辑:更正之后——您可以得到如下结果:

def f(x,y,n,z):
    rows = [[0] * y for i in xrange(x)]
    rn = random.random
    for i in xrange(n):
        topleft = (int(x*rn()) - z, int(y*rn()) - z)
        l = max(0, topleft[1])
        r = min(topleft[1]+(z*2), y)
        for u in xrange(max(0, topleft[0]), min(topleft[0]+(z*2), x)):
            rows[u][l:r] = [j+(j<255) for j in rows[u][l:r]]

编辑:一些新的计时与时间IT(10次运行)--似乎这只提供了轻微的加速:

import timeit
print timeit.Timer("f1(1024,1024,400,75)", "from __main__ import f1").timeit(10)
print timeit.Timer("f2(1024,1024,400,75)", "from __main__ import f2").timeit(10)
print timeit.Timer("f(1024,1024,400,75)", "from __main__ import f3").timeit(10)

f1 21.1669280529
f2 12.9376120567
f  11.1249599457

• 5 楼

Alex Martelli 15 年前

在我的(slow ish;-)第一天MacBook Air,1.6GHz Core 2 Duo,MacOSX 10.5上的System python 2.5上,将代码保存在 op.py 我看到以下时间安排:

$ python -mtimeit -s'import op' 'op.f1()'
10 loops, best of 3: 5.58 sec per loop
$ python -mtimeit -s'import op' 'op.f2()'
10 loops, best of 3: 3.15 sec per loop

所以,我的机器比你的慢了1.9倍。

我对这项任务最快的代码是:

def f3(x=x,y=y,n=n,z=z):
    rows = [[0]*y for i in range(x)]
    rr = random.randrange
    inc = (1).__add__
    sat = (0xff).__and__

    for i in range(n):
        inputX, inputY = rr(x), rr(y)
        b = max(0, inputX - z)
        t = min(inputX + z, x)
        l = max(0, inputY - z)
        r = min(inputY + z, y)
        for i in range(b, t):
            rows[i][l:r] = map(inc, rows[i][l:r])
    for i in range(x):
      rows[i] = map(sat, rows[i])

什么时候:

$ python -mtimeit -s'import op' 'op.f3()'
10 loops, best of 3: 3 sec per loop

所以,一个非常温和的加速,在你的机器上投射到超过1.5秒-远高于你的目标1.0:-(。

使用简单的C代码扩展, exte.c ……

#include "Python.h"

static PyObject*
dopoint(PyObject* self, PyObject* args)
{
    int x, y, z, px, py;
    int b, t, l, r;
    int i, j;
    PyObject* rows;

    if(!PyArg_ParseTuple(args, "iiiiiO",
                         &x, &y, &z, &px, &py, &rows
        ))
        return 0;

    b = px - z;
    if (b < 0) b = 0;
    t = px + z;
    if (t > x) t = x;
    l = py - z;
    if (l < 0) l = 0;
    r = py + z;
    if (r > y) r = y;

    for(i = b; i < t; ++i) {
        PyObject* row = PyList_GetItem(rows, i);
        for(j = l; j < r; ++j) {
            PyObject* pyitem = PyList_GetItem(row, j);
            long item = PyInt_AsLong(pyitem);
            if (item < 255) {
                PyObject* newitem = PyInt_FromLong(item + 1);
                PyList_SetItem(row, j, newitem);
            }
        }
    }

    Py_RETURN_NONE;
}

static PyMethodDef exteMethods[] = {
    {"dopoint", dopoint, METH_VARARGS, "process a point"},
    {0}
};

void
initexte()
{
    Py_InitModule("exte", exteMethods);
}

(注:我没有仔细检查过——我认为它不会因为引用窃取和借用的正确相互作用而泄漏内存,但在投入生产之前应该仔细检查代码;—),我们可以这样做。

import exte
def f4(x=x,y=y,n=n,z=z):
    rows = [[0]*y for i in range(x)]
    rr = random.randrange

    for i in range(n):
        inputX, inputY = rr(x), rr(y)
        exte.dopoint(x, y, z, inputX, inputY, rows)

时机

$ python -mtimeit -s'import op' 'op.f4()'
10 loops, best of 3: 345 msec per loop

显示了8-9倍的加速度,这将使你进入你想要的球场。我看到一条评论说你不想要任何第三方扩展,但是,好吧,这个小小的扩展你可以完全自己做;-)。(不确定什么许可条件适用于堆栈溢出时的代码,但如果您需要,我很高兴在Apache2许可证或类似许可证下重新发布它;-)。

登录后回复