Как захватить все группы регулярных выражений в одном регулярном выражении?

Question

Как захватить все группы регулярных выражений в одном регулярном выражении?

Дан такой файл:

# For more information about CC-CEDICT see:
# http://cc-cedict.org/wiki/
A A [A] /(slang) (Tw) to steal/
AA制 AA制 [A A zhi4] /to split the bill/to go Dutch/
AB制 AB制 [A B zhi4] /to split the bill (where the male counterpart foots the larger portion of the sum)/(theater) a system where two actors take turns in acting the main role, with one actor replacing the other if either is unavailable/
A咖 A咖 [A ka1] /class "A"/top grade/
A圈兒 A圈儿 [A quan1 r5] /at symbol, @/
A片 A片 [A pian4] /adult movie/pornography/

Я хочу построить объект json, который:

пропустить строки, начинающиеся с #
разбивает строки на 4 части
1. характер традиции (простирается от начала ^ до следующего пространства)
2. упрощенный символ (простирается от первого пространства до второго)
3. пиньинь (промежутки между квадратными скобками [...])
4. пространство блеска между первым / и последним / (обратите внимание, что есть случаи где в глянце могут быть косые черты, например /adult movie/pornography/

В настоящее время я делаю это так:

>>> for line in text.split('n'):
...     if line.startswith('#'): continue;
...     line = line.strip()
...     simple, _, line = line.partition(' ')
...     trad, _, line = line.partition(' ')
...     print simple, trad
... 
A A
AA制 AA制
AB制 AB制
A咖 A咖
A圈兒 A圈儿
A片 A片

Чтобы получить [...], я должен был сделать:

>>> import re
>>> line = "A片 A片 [A pian4] /adult movie/pornography/"
>>> simple, _, line = line.partition(' ')
>>> trad, _, line = line.partition(' ')
>>> re.findall(r'[.*]', line)[0].strip('[]')
'A pian4'

И чтобы найти /.../, я должен был сделать:

>>> line = "A片 A片 [A pian4] /adult movie/pornography/"
>>> re.findall(r'/.*/$', line)[0].strip('/')
'adult movie/pornography'

Как я могу использовать группы регулярных выражений, чтобы поймать все из них сразу, которые делают несколько разделов / splits/findall?

4 4

python regex string regex-group delimiter

4 ответа:

p = re.compile(ru"(\S+)\s+(\S+)\s+\[([^\]]*)\]\s+/(.*)/$")
m = p.match(line)
if m:
    simple, trad, pinyin, gloss = m.groups()
См. https://docs.python.org/2/howto/regex.html#grouping для более подробной информации.

3

Это может помочь:
preg = re.compile(r'^(?<!#)(\w+)\s(\w+)\s(\[.*?\])\s/(.+)/$',
                  re.MULTILINE | re.UNICODE)

with open('your_file') as f:
    for line in f:
        match = preg.match(line)
        if match:
            print(match.groups())
Посмотрите здесь для подробного объяснения используемого регулярного выражения.

2

Я создал следующее регулярное выражение, чтобы соответствовать всем четырем группам:

ДЕМОНСТРАЦИЯ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ

^(.*)\s(.*)\s(\[.*\])\s(\/.*\/)

Это предполагает, что существует только одно пространство между группами, однако если у вас есть больше, вы можете просто добавить модификатор.

Вот демонстрация того, как это работает с python со строками, приведенными в вопросе:

IDEONE DEMO

1

fedorqui · Accepted Answer · 2016-04-18 09:54:33

Я мог бы извлечь информацию, используя регулярные выражения вместо этого. Таким образом, вы можете собирать блоки в группы, а затем обрабатывать их по своему усмотрению:
import re

with open("myfile") as f:
    data = f.read().split('\n')
    for line in data:
        if line.startswith('#'): continue
        m = re.search(r"^([^ ]*) ([^ ]*) \[([^]]*)\] \/(.*)\/$", line)
        if m:
            print(m.groups())
То есть регулярное выражение разбивает строку на следующие группы:
^([^ ]*) ([^ ]*) \[([^]]*)\] \/(.*)\/$
  ^^^^^   ^^^^^     ^^^^^       ^^
   1)      2)        3)         4)
То есть:

Первое слово.

Второе слово.

Текст внутри [ и ].

Текст от / до / Перед концом строки.

Он возвращает:
('A', 'A', 'A', '(slang) (Tw) to steal')
('AA制', 'AA制', 'A A zhi4', 'to split the bill/to go Dutch')
('AB制', 'AB制', 'A B zhi4', 'to split the bill (where the male counterpart foots the larger portion of the sum)/(theater) a system where two actors take turns in acting the main role, with one actor replacing the other if either is unavailable')
('A咖', 'A咖', 'A ka1', 'class "A"/top grade')
('A圈兒', 'A圈儿', 'A quan1 r5', 'at symbol, @')
('A片', 'A片', 'A pian4', 'adult movie/pornography')