Как построить модель языка с большим словарным запасом для CMU Sphinx?


Я хотел бы построить модель языка для CMU Sphinx, но мой корпус содержит более 1000 слов, поэтому я не могу использовать онлайн-инструмент. Как я использую (скрипты в cmuclmtk?) построить свою языковую модель?

2 8

2 ответа:

Пожалуйста, прочитайте учебник

Http://cmusphinx.sourceforge.net/wiki/tutoriallm

Нетривиальная задача. Создание языковой модели - это трудоемкая и ресурсоемкая задача.

Если вы хотите иметь "хорошую" языковую модель, вам понадобится большой или очень большой текстовый корпус для обучения языковой модели (подумайте в порядке величины нескольких лет текстов wall street journal).

"хорошо" означает: если языковая модель сможет обобщать из обучающих данных новые и ранее невидимые входные данные

Вы должны посмотреть документацию наборы инструментов модели языка Sphinx и HTK.

Http://cmusphinx.sourceforge.net/wiki/tutoriallm

Также проверьте эти два потока:

Построение совместимой языковой модели openears

Ruby Text Analysis

Вы можете взять более общую языковую модель, основанную на большем корпусе, и интерполировать с ней свою меньшую языковую модель .. например, модель языка отступления ... но это не тривиальная задача.

См.: модель отступления Каца