Смещение Синсета Wordnet? Как сравнивать слова


Я использую китайский Андроид с академической Синица. Это перевод Wordnet 1.6. К сожалению, он не находится в свободном доступе и должен быть приобретен, и в руководстве в основном говорится, что обратитесь к руководству Wordnet. Я пытаюсь понять, как сравнить сходство между двумя словами. Я предполагаю, что это делается с помощью WordNetSynsetOffset, но я не смог найти ничего на веб-сайте Wordnet или документации о том, как использовать это для сравнения двух слов. Что касается собственно алгоритмов я предположим, что это хорошее начало http://marimba.d.umn.edu/similarity/measures.html

<Record Conut="65">  
    <EnglishLemma>exercise</EnglishLemma>  
    <POS>Noun</POS>  
    <WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset>  
    <EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>  
    <ChineseTransList>  
        <ChineseTrans>  
            <ChineseLemma>例題</ChineseLemma>  
            <ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>  
        </ChineseTrans>  
    </ChineseTransList>  
</Record>  
2 2

2 ответа:

Итак, я думаю, что вы ищете (основываясь на комментариях), это WordNet API.

Если китайский формат совпадает, вы можете использовать API WordNet, поставляемый вместе с вашей установкой. Это библиотека C, вы можете найти документацию здесь:

Http://wordnet.princeton.edu/wordnet/documentation/

В основном-вот как это работает. Synset-это группа синонимичных терминов для идентифицированного synset, который однозначно идентифицируется идентификатором Synset (00469856). Синсеты связаны с другими синсетами посредством различных форм семантических отношений. Большинство метрик подобия работают путем поиска одного Synset (по номеру, на который вы ссылаетесь ниже, API должен поддерживать это), а затем, используя различные метрики, видят, насколько далеко находится другой Synset.

Синсет также содержит текстовое описание семантического значения синсета-стандартное словарное определение, к которому мы привыкли. В некоторых случаях некоторые метрики сходства (такие как как алгоритм леска), использует текстовое описание Для сравнения того, насколько "похожи" два синсета друг на друга.

Существуют другие API, которые позволяют вам искать и получать доступ к WordNet через его API на различных языках.

Http://wordnet.princeton.edu/wordnet/related-projects/

Например, вот пример определения Synset из файлов словаря WordNet 3.0:

00020671 29 В загипнотизировать загипнотизировать загипнотизировать загипнотизировать 04 0 0 0 0 (... еще больше опущено)...

Уникальный идентификатор 00020671 идентифицирует этот синтезатор. Здесь есть четыре синонима гипноза.

Слово может иметь множество возможных значений (синсетов). Если вы хотите сравнить сходство между двумя смыслами, вам сначала нужно будет разобрать каждое слово. Как только вы узнаете, какие два чувства вы сравниваете, вы можете использовать то, что предложил @bwalenz.