Специальный белый список символов с Тессерактом (OCR)


Я пытаюсь прочитать некоторые денежные значения с помощью OCR, проблема в том, что я хочу сказать ему, какие символы он должен распознать.

Это мой текущий белый список

       Version : Tesseract from Charles Weld v3.0.2
       tessedit_char_whitelist "0123456789,.$"

Как включить цент ( ¢ )?

Обновление 1: Если я добавлю ¢ в список, он его не узнает.

1 2

1 ответ:

Хорошо, после того, как я не понял вопрос в первый раз, у меня есть более подходящий ответ.

ocr.SetVariable("tessedit_char_whitelist", "0123456789,.$¢");

Введите имя параметра и его значение в виде строки, как это делается в файле конфигурации. Например

SetVariable("tessedit_char_whitelist", "xyz"); to whitelist x, y and z. 

Также убедитесь, что

SetVariable("classify_bln_numeric_mode", "1 or 0"); 

Для установки режима только для чисел или отключения режима только для чисел. Я бы предположил, что в вашем случае он должен быть отключен, потому что вы используете символы, а также цифры.

Надеюсь, это поможет! Если не дай я знаю, и я удалю ответ(мне пришлось использовать ответ, потому что я не могу комментировать меньше 50 повторений, иначе я бы прокомментировал сначала, чтобы получить больше информации о проблеме) Ура!