Что означает результат анализа зависимостей Турбопарсера?
Я пытался использовать деревья анализа зависимостей, созданные Турбопарсером CMU. Он работает безупречно. Проблема, однако, заключается в том, что существует очень мало документации. Мне нужно точно понимать вывод их парсера. Например, предложение " я решил задачу со статистикой. " генерирует следующие выходные данные:
1 I _ PRP PRP _ 2 SUB
2 solved _ VBD VBD _ 0 ROOT
3 the _ DT DT _ 4 NMOD
4 problem _ NN NN _ 2 OBJ
5 with _ IN IN _ 2 VMOD
6 statistics _ NNS NNS _ 5 PMOD
7 . _ . . _ 2 P
Я не нашел никакой документации, которая могла бы помочь понять, что означают различные столбцы и как индексы в предпоследняя колонка (2, 0, 4, 2, ... ) создаются. Кроме того, я понятия не имею, почему есть две колонки, посвященные тегам части речи. Любая помощь (или ссылка на внешнюю документацию) будет иметь большое значение.
P.S. Если вы хотите попробовать их парсер, вот их онлайн-демо.
P. P. S. пожалуйста, не предлагайте использовать вывод анализа зависимостей Стэнфорда. Меня интересуют алгоритмы линейного программирования, а это совсем не то, что делает Стэнфордская система НЛП.
2 ответа:
Я не знаю TurboParser, но я предполагаю, что первое число указывает на идентификатор токена, а второе-на идентификатор его управляющего. То есть, для вашего примера:
solved( I, problem(the), with(statistics), . )
На самом деле, это формат Conl-X. Вы можете получить дополнительную информацию здесь: http://ilk.uvt.nl/conll/#dataformat
Вот значение каждого из столбцов вывода Турбопарсера:
- идентификатор лексемы , то есть ее одноосновный индекс в предложении
- оригинальный знак как это было в оригинальном тексте
- Лемма , лемматизированная форма лексемы (пустая здесь, потому что лемматизатор не был установлен)
- tag (крупнозернистый тег части речи)
- tag (мелкозернистый тег части речи, который совпадает с 4. с Турбопарсер)
- морфологические признаки (здесь пусто)
- заголовок токена , представленный его индексом (корневой токен имеет значение заголовка
0
)- отношение текущего токена с его головкой
Результаты полученные с его помощью вы давали может быть представлено как зависимостей на основе дерева разбора:
Для получения дополнительной информации о CoNLL-X формат: