社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

用于将有限正则表达式转换为文本数组的Python包?

aschultz • 3 年前 • 1302 次点击  

假设我有以下字符串:

trend  = '(A|B|C)_STRING'

我想把它扩展到:

A_STRING
B_STRING
C_STRING

OR条件可以是字符串中的任意位置。即 STRING_(A|B)_STRING_(C|D)

将扩展到

STRING_A_STRING_C
STRING_B_STRING C
STRING_A_STRING_D
STRING_B_STRING_D

我还想讨论空条件的情况:

(|A_)STRING 将扩展到:

A_STRING
STRING

以下是我迄今为止尝试过的:

def expandOr(trend):
    parenBegin = trend.index('(') + 1
    parenEnd = trend.index(')')
    orExpression = trend[parenBegin:parenEnd]
    originalTrend = trend[0:parenBegin - 1]
    expandedOrList = []

    for oe in orExpression.split("|"):
        expandedOrList.append(originalTrend + oe)

但这显然不起作用。

使用正则表达式有没有简单的方法?

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/132115
 
1302 次点击  
文章 [ 4 ]  |  最新文章 3 年前
Ryszard Czech
Reply   •   1 楼
Ryszard Czech    4 年前

这很容易实现 sre_yield module :

>>> import sre_yield
>>> trend  = '(A|B|C)_STRING'
>>> strings = list(sre_yield.AllStrings(trend))
>>> print(strings)
['A_STRING', 'B_STRING', 'C_STRING']

目标 sre_产量 就是高效地生成与给定正则表达式匹配的所有值,或者高效地计算可能的匹配项。。。它通过在树上行走来实现这一点 sre_parse (与 re 模块),并根据需要构造链式/重复迭代器。根据输入字符串的不同,可能会有重复的结果——这些情况 sre_parse 没有优化。

roippi
Reply   •   2 楼
roippi    11 年前

我会这样做来提取这些群体:

def extract_groups(trend):
    l_parens = [i for i,c in enumerate(trend) if c == '(']
    r_parens = [i for i,c in enumerate(trend) if c == ')']
    assert len(l_parens) == len(r_parens)
    return [trend[l+1:r].split('|') for l,r in zip(l_parens,r_parens)]

然后你可以使用 itertools.product :

expr = 'STRING_(A|B)_STRING_(C|D)'
from itertools import product
list(product(*extract_groups(expr)))
Out[92]: [('A', 'C'), ('A', 'D'), ('B', 'C'), ('B', 'D')]

现在的问题是把它们重新拼接到你原来的表情上。我会用 re 为此:)

#python3.3+
def _gen(it):
    yield from it

p = re.compile('\(.*?\)')

for tup in product(*extract_groups(trend)):
    gen = _gen(tup)
    print(p.sub(lambda x: next(gen),trend))

STRING_A_STRING_C
STRING_A_STRING_D
STRING_B_STRING_C
STRING_B_STRING_D

也许有一种更易读的方式 re.sub 按顺序替换iterable中的内容,但这是我脑子里想出来的。

Seçkin Savaşçı
Reply   •   3 楼
Seçkin Savaşçı    11 年前
import exrex
trend  = '(A|B|C)_STRING'
trend2 = 'STRING_(A|B)_STRING_(C|D)'

>>> list(exrex.generate(trend))
[u'A_STRING', u'B_STRING', u'C_STRING']

>>> list(exrex.generate(trend2))
[u'STRING_A_STRING_C', u'STRING_A_STRING_D', u'STRING_B_STRING_C', u'STRING_B_STRING_D']
Tim Peters
Reply   •   4 楼
Tim Peters    11 年前

这是一个非常干净的方法。你会很高兴弄清楚它是如何工作的:-)

def expander(s):
    import re
    from itertools import product
    pat = r"\(([^)]*)\)"
    pieces = re.split(pat, s)
    pieces = [piece.split("|") for piece in pieces]
    for p in product(*pieces):
        yield "".join(p)

然后:

for s in ('(A|B|C)_STRING',
          '(|A_)STRING',
          'STRING_(A|B)_STRING_(C|D)'):
    print s, "->"
    for t in expander(s):
        print "   ", t

显示:

(A|B|C)_STRING ->
    A_STRING
    B_STRING
    C_STRING
(|A_)STRING ->
    STRING
    A_STRING
STRING_(A|B)_STRING_(C|D) ->
    STRING_A_STRING_C
    STRING_A_STRING_D
    STRING_B_STRING_C
    STRING_B_STRING_D