Как подготовить набор данных для распознавания речи
Мне нужно обучить двунаправленную модель LSTM распознавать дискретную речь (отдельные числа от 0 до 9) я записал речь из 100 динамиков. Что мне делать дальше? (Предположим, я разделяю их на отдельные части .wav файлы, содержащие по одному номеру на файл) я буду использовать mfcc в качестве функций для сети.
Далее, я хотел бы знать разницу в наборе данных, если я собираюсь использовать библиотеку, поддерживающую CTC (Connectionist Temporal Classification)
1 ответ:
Вы можете использовать ответ / руководство, предоставленное здесь
В зависимости от того, какую библиотеку вы используете для создания LSTM(pybrain, theano, keras), вы можете просмотреть их документацию.
Я бы рекомендовал использовать для этого Theano (Binary LSTM link) или Keras (Tutorial), потому что они довольно просты для понимания и хорошо документированы.
Надеюсь, это поможет.