Смещение Синсета Wordnet? Как сравнивать слова
Я использую китайский Андроид с академической Синица. Это перевод Wordnet 1.6. К сожалению, он не находится в свободном доступе и должен быть приобретен, и в руководстве в основном говорится, что обратитесь к руководству Wordnet. Я пытаюсь понять, как сравнить сходство между двумя словами. Я предполагаю, что это делается с помощью WordNetSynsetOffset, но я не смог найти ничего на веб-сайте Wordnet или документации о том, как использовать это для сравнения двух слов. Что касается собственно алгоритмов я предположим, что это хорошее начало http://marimba.d.umn.edu/similarity/measures.html
<Record Conut="65">
<EnglishLemma>exercise</EnglishLemma>
<POS>Noun</POS>
<WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset>
<EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>
<ChineseTransList>
<ChineseTrans>
<ChineseLemma>例題</ChineseLemma>
<ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>
</ChineseTrans>
</ChineseTransList>
</Record>
2 ответа:
Итак, я думаю, что вы ищете (основываясь на комментариях), это WordNet API.
Если китайский формат совпадает, вы можете использовать API WordNet, поставляемый вместе с вашей установкой. Это библиотека C, вы можете найти документацию здесь:
Http://wordnet.princeton.edu/wordnet/documentation/
В основном-вот как это работает. Synset-это группа синонимичных терминов для идентифицированного synset, который однозначно идентифицируется идентификатором Synset (00469856). Синсеты связаны с другими синсетами посредством различных форм семантических отношений. Большинство метрик подобия работают путем поиска одного Synset (по номеру, на который вы ссылаетесь ниже, API должен поддерживать это), а затем, используя различные метрики, видят, насколько далеко находится другой Synset.
Синсет также содержит текстовое описание семантического значения синсета-стандартное словарное определение, к которому мы привыкли. В некоторых случаях некоторые метрики сходства (такие как как алгоритм леска), использует текстовое описание Для сравнения того, насколько "похожи" два синсета друг на друга.Существуют другие API, которые позволяют вам искать и получать доступ к WordNet через его API на различных языках.
Http://wordnet.princeton.edu/wordnet/related-projects/
Например, вот пример определения Synset из файлов словаря WordNet 3.0:
00020671 29 В загипнотизировать загипнотизировать загипнотизировать загипнотизировать 04 0 0 0 0 (... еще больше опущено)...
Уникальный идентификатор 00020671 идентифицирует этот синтезатор. Здесь есть четыре синонима гипноза.