Как построить модель языка с большим словарным запасом для CMU Sphinx?
Я хотел бы построить модель языка для CMU Sphinx, но мой корпус содержит более 1000 слов, поэтому я не могу использовать онлайн-инструмент. Как я использую (скрипты в cmuclmtk?) построить свою языковую модель?
2 ответа:
Нетривиальная задача. Создание языковой модели - это трудоемкая и ресурсоемкая задача.
Если вы хотите иметь "хорошую" языковую модель, вам понадобится большой или очень большой текстовый корпус для обучения языковой модели (подумайте в порядке величины нескольких лет текстов wall street journal).
"хорошо" означает: если языковая модель сможет обобщать из обучающих данных новые и ранее невидимые входные данные
Вы должны посмотреть документацию наборы инструментов модели языка Sphinx и HTK.
Http://cmusphinx.sourceforge.net/wiki/tutoriallm
Также проверьте эти два потока:
Построение совместимой языковой модели openears
Вы можете взять более общую языковую модель, основанную на большем корпусе, и интерполировать с ней свою меньшую языковую модель .. например, модель языка отступления ... но это не тривиальная задача.