PocketSphinx python и установка акустической модели?
Я читал это руководство по распознаванию речи , и в нем упоминалось, что мне нужны три элемента для распознавания речи: акустическая модель, языковая модель, фонетический словарь.
Я хотел начать играть с этой python demo, которая использует Gstreamer для захвата с микрофона и ресамплирования до 8 кГц, 16-битного PCM аудио.
Я вижу, что могу указать модель языка и фонетический словарь, и я использую один [предоставленный cmu]:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/
Но я в замешательстве. где я должен указать акустическую модель? Есть ли у gstreamer своя акустическая модель, которую я неявно использую? Я надеялся использовать акустическую модель, представленную здесь, для немного лучших результатов:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/
(извините за гиперссылки. Я не могу разместить более 2 ссылок с rep менее 10)
1 ответ:
Но я запутался, где я должен указать акустическую модель?
Вы можете указать модель с помощью свойства hmm элемента gstreamer. Так же, как это описано в учебнике
asr.set_property('lm', '/home/user/mylanguagemodel.lm')
Вы можете использовать
asr.set_property('hmm', '/home/user/acoustic_model_folder')
Есть ли у gstreamer своя акустическая модель, которую я неявно использую?
Да, по умолчанию используется американская английская модель hub4wsj_sc_8k из дистрибутива