Как подготовить набор данных для распознавания речи


Мне нужно обучить двунаправленную модель LSTM распознавать дискретную речь (отдельные числа от 0 до 9) я записал речь из 100 динамиков. Что мне делать дальше? (Предположим, я разделяю их на отдельные части .wav файлы, содержащие по одному номеру на файл) я буду использовать mfcc в качестве функций для сети.

Далее, я хотел бы знать разницу в наборе данных, если я собираюсь использовать библиотеку, поддерживающую CTC (Connectionist Temporal Classification)

1 4

1 ответ:

Вы можете использовать ответ / руководство, предоставленное здесь

В зависимости от того, какую библиотеку вы используете для создания LSTM(pybrain, theano, keras), вы можете просмотреть их документацию.

Я бы рекомендовал использовать для этого Theano (Binary LSTM link) или Keras (Tutorial), потому что они довольно просты для понимания и хорошо документированы.

Надеюсь, это поможет.