Как захватить все группы регулярных выражений в одном регулярном выражении?
Дан такой файл:
# For more information about CC-CEDICT see:
# http://cc-cedict.org/wiki/
A A [A] /(slang) (Tw) to steal/
AA制 AA制 [A A zhi4] /to split the bill/to go Dutch/
AB制 AB制 [A B zhi4] /to split the bill (where the male counterpart foots the larger portion of the sum)/(theater) a system where two actors take turns in acting the main role, with one actor replacing the other if either is unavailable/
A咖 A咖 [A ka1] /class "A"/top grade/
A圈兒 A圈儿 [A quan1 r5] /at symbol, @/
A片 A片 [A pian4] /adult movie/pornography/
Я хочу построить объект json, который:
- пропустить строки, начинающиеся с
#
- разбивает строки на 4 части
- характер традиции (простирается от начала
^
до следующего пространства) - упрощенный символ (простирается от первого пространства до второго)
- пиньинь (промежутки между квадратными скобками
[...]
) - пространство блеска между первым
/
и последним/
(обратите внимание, что есть случаи где в глянце могут быть косые черты, например/adult movie/pornography/
- характер традиции (простирается от начала
В настоящее время я делаю это так:
>>> for line in text.split('n'):
... if line.startswith('#'): continue;
... line = line.strip()
... simple, _, line = line.partition(' ')
... trad, _, line = line.partition(' ')
... print simple, trad
...
A A
AA制 AA制
AB制 AB制
A咖 A咖
A圈兒 A圈儿
A片 A片
Чтобы получить [...]
, я должен был сделать:
>>> import re
>>> line = "A片 A片 [A pian4] /adult movie/pornography/"
>>> simple, _, line = line.partition(' ')
>>> trad, _, line = line.partition(' ')
>>> re.findall(r'[.*]', line)[0].strip('[]')
'A pian4'
И чтобы найти /.../
, я должен был сделать:
>>> line = "A片 A片 [A pian4] /adult movie/pornography/"
>>> re.findall(r'/.*/$', line)[0].strip('/')
'adult movie/pornography'
Как я могу использовать группы регулярных выражений, чтобы поймать все из них сразу, которые делают несколько разделов / splits/findall?
4 ответа:
Я мог бы извлечь информацию, используя регулярные выражения вместо этого. Таким образом, вы можете собирать блоки в группы, а затем обрабатывать их по своему усмотрению:
import re with open("myfile") as f: data = f.read().split('\n') for line in data: if line.startswith('#'): continue m = re.search(r"^([^ ]*) ([^ ]*) \[([^]]*)\] \/(.*)\/$", line) if m: print(m.groups())
То есть регулярное выражение разбивает строку на следующие группы:
^([^ ]*) ([^ ]*) \[([^]]*)\] \/(.*)\/$ ^^^^^ ^^^^^ ^^^^^ ^^ 1) 2) 3) 4)
То есть:
Первое слово.
Второе слово.
Текст внутри
[
и]
.Текст от
/
до/
Перед концом строки.Он возвращает:
('A', 'A', 'A', '(slang) (Tw) to steal') ('AA制', 'AA制', 'A A zhi4', 'to split the bill/to go Dutch') ('AB制', 'AB制', 'A B zhi4', 'to split the bill (where the male counterpart foots the larger portion of the sum)/(theater) a system where two actors take turns in acting the main role, with one actor replacing the other if either is unavailable') ('A咖', 'A咖', 'A ka1', 'class "A"/top grade') ('A圈兒', 'A圈儿', 'A quan1 r5', 'at symbol, @') ('A片', 'A片', 'A pian4', 'adult movie/pornography')
p = re.compile(ru"(\S+)\s+(\S+)\s+\[([^\]]*)\]\s+/(.*)/$") m = p.match(line) if m: simple, trad, pinyin, gloss = m.groups()
См. https://docs.python.org/2/howto/regex.html#grouping для более подробной информации.
Это может помочь:
preg = re.compile(r'^(?<!#)(\w+)\s(\w+)\s(\[.*?\])\s/(.+)/$', re.MULTILINE | re.UNICODE) with open('your_file') as f: for line in f: match = preg.match(line) if match: print(match.groups())
Посмотрите здесь для подробного объяснения используемого регулярного выражения.
Я создал следующее регулярное выражение, чтобы соответствовать всем четырем группам:
ДЕМОНСТРАЦИЯ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ
^(.*)\s(.*)\s(\[.*\])\s(\/.*\/)
Это предполагает, что существует только одно пространство между группами, однако если у вас есть больше, вы можете просто добавить модификатор.
Вот демонстрация того, как это работает с python со строками, приведенными в вопросе: