用于将有限正则表达式转换为文本数组的Python包?

aschultz • 3 年前 • 1302 次点击

假设我有以下字符串:

trend  = '(A|B|C)_STRING'

我想把它扩展到:

A_STRING
B_STRING
C_STRING

OR条件可以是字符串中的任意位置。即 STRING_(A|B)_STRING_(C|D)

将扩展到

STRING_A_STRING_C
STRING_B_STRING C
STRING_A_STRING_D
STRING_B_STRING_D

我还想讨论空条件的情况:

(|A_)STRING 将扩展到:

A_STRING
STRING

以下是我迄今为止尝试过的:

def expandOr(trend):
    parenBegin = trend.index('(') + 1
    parenEnd = trend.index(')')
    orExpression = trend[parenBegin:parenEnd]
    originalTrend = trend[0:parenBegin - 1]
    expandedOrList = []

    for oe in orExpression.split("|"):
        expandedOrList.append(originalTrend + oe)

但这显然不起作用。

使用正则表达式有没有简单的方法?

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/132115

1302 次点击

文章 [ 4 ] | 最新文章 3 年前

• 1 楼

Ryszard Czech 4 年前

这很容易实现 sre_yield module :

>>> import sre_yield
>>> trend  = '(A|B|C)_STRING'
>>> strings = list(sre_yield.AllStrings(trend))
>>> print(strings)
['A_STRING', 'B_STRING', 'C_STRING']

目标 sre_产量 就是高效地生成与给定正则表达式匹配的所有值,或者高效地计算可能的匹配项。。。它通过在树上行走来实现这一点 sre_parse (与 re 模块),并根据需要构造链式/重复迭代器。根据输入字符串的不同,可能会有重复的结果——这些情况 sre_parse 没有优化。

• 2 楼

roippi 11 年前

我会这样做来提取这些群体:

def extract_groups(trend):
    l_parens = [i for i,c in enumerate(trend) if c == '(']
    r_parens = [i for i,c in enumerate(trend) if c == ')']
    assert len(l_parens) == len(r_parens)
    return [trend[l+1:r].split('|') for l,r in zip(l_parens,r_parens)]

然后你可以使用 itertools.product :

expr = 'STRING_(A|B)_STRING_(C|D)'
from itertools import product
list(product(*extract_groups(expr)))
Out[92]: [('A', 'C'), ('A', 'D'), ('B', 'C'), ('B', 'D')]

现在的问题是把它们重新拼接到你原来的表情上。我会用 re 为此:)

#python3.3+
def _gen(it):
    yield from it

p = re.compile('\(.*?\)')

for tup in product(*extract_groups(trend)):
    gen = _gen(tup)
    print(p.sub(lambda x: next(gen),trend))

STRING_A_STRING_C
STRING_A_STRING_D
STRING_B_STRING_C
STRING_B_STRING_D

也许有一种更易读的方式 re.sub 按顺序替换iterable中的内容,但这是我脑子里想出来的。

• 3 楼

Seçkin SavaÅçÄ± 11 年前

import exrex
trend  = '(A|B|C)_STRING'
trend2 = 'STRING_(A|B)_STRING_(C|D)'

>>> list(exrex.generate(trend))
[u'A_STRING', u'B_STRING', u'C_STRING']

>>> list(exrex.generate(trend2))
[u'STRING_A_STRING_C', u'STRING_A_STRING_D', u'STRING_B_STRING_C', u'STRING_B_STRING_D']

• 4 楼

Tim Peters 11 年前

这是一个非常干净的方法。你会很高兴弄清楚它是如何工作的:-)

def expander(s):
    import re
    from itertools import product
    pat = r"\(([^)]*)\)"
    pieces = re.split(pat, s)
    pieces = [piece.split("|") for piece in pieces]
    for p in product(*pieces):
        yield "".join(p)

然后:

for s in ('(A|B|C)_STRING',
          '(|A_)STRING',
          'STRING_(A|B)_STRING_(C|D)'):
    print s, "->"
    for t in expander(s):
        print "   ", t

显示:

(A|B|C)_STRING ->
    A_STRING
    B_STRING
    C_STRING
(|A_)STRING ->
    STRING
    A_STRING
STRING_(A|B)_STRING_(C|D) ->
    STRING_A_STRING_C
    STRING_A_STRING_D
    STRING_B_STRING_C
    STRING_B_STRING_D

登录后回复