Специальный белый список символов с Тессерактом (OCR)
Я пытаюсь прочитать некоторые денежные значения с помощью OCR, проблема в том, что я хочу сказать ему, какие символы он должен распознать.
Это мой текущий белый список
Version : Tesseract from Charles Weld v3.0.2
tessedit_char_whitelist "0123456789,.$"
Как включить цент ( ¢ )?
Обновление 1: Если я добавлю ¢ в список, он его не узнает.
1 ответ:
Хорошо, после того, как я не понял вопрос в первый раз, у меня есть более подходящий ответ.
ocr.SetVariable("tessedit_char_whitelist", "0123456789,.$¢");
Введите имя параметра и его значение в виде строки, как это делается в файле конфигурации. Например
SetVariable("tessedit_char_whitelist", "xyz"); to whitelist x, y and z.
Также убедитесь, что
SetVariable("classify_bln_numeric_mode", "1 or 0");
Для установки режима только для чисел или отключения режима только для чисел. Я бы предположил, что в вашем случае он должен быть отключен, потому что вы используете символы, а также цифры.
Надеюсь, это поможет! Если не дай я знаю, и я удалю ответ(мне пришлось использовать ответ, потому что я не могу комментировать меньше 50 повторений, иначе я бы прокомментировал сначала, чтобы получить больше информации о проблеме) Ура!