PocketSphinx python и установка акустической модели?


Я читал это руководство по распознаванию речи , и в нем упоминалось, что мне нужны три элемента для распознавания речи: акустическая модель, языковая модель, фонетический словарь.

Я хотел начать играть с этой python demo, которая использует Gstreamer для захвата с микрофона и ресамплирования до 8 кГц, 16-битного PCM аудио.

Я вижу, что могу указать модель языка и фонетический словарь, и я использую один [предоставленный cmu]:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/

Но я в замешательстве. где я должен указать акустическую модель? Есть ли у gstreamer своя акустическая модель, которую я неявно использую? Я надеялся использовать акустическую модель, представленную здесь, для немного лучших результатов:

 http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/

(извините за гиперссылки. Я не могу разместить более 2 ссылок с rep менее 10)

1 5

1 ответ:

Но я запутался, где я должен указать акустическую модель?

Вы можете указать модель с помощью свойства hmm элемента gstreamer. Так же, как это описано в учебнике

asr.set_property('lm', '/home/user/mylanguagemodel.lm')

Вы можете использовать

asr.set_property('hmm', '/home/user/acoustic_model_folder')

Есть ли у gstreamer своя акустическая модель, которую я неявно использую?

Да, по умолчанию используется американская английская модель hub4wsj_sc_8k из дистрибутива