Kopiowanie treści dokumentu jest przetworzeniem obrazu dokumentu (utworzonym poprzez zapisanie w pliku graficznym skanowanej kartki papieru) do edytowalnego tekstu, który może być zapisany w jednym z popularnych formatów plików tekstowych (procesorów tekstu).

Do rozpoznawania tekstu zastosowane są najnowocześniejsze algorytmy w pełni wykorzystujące obecną technologię komputerową.

W obecnej chwili rozpoznawanych jest 66 języków.

MiceText bez żadnego problemu poprawnie rozpozna dokument nawet wtedy, gdy użytkownik wybierze opcję rozpoznawania dokumentu w każdym z 66 języków, lecz należy dokonać analizy czy w Twojej firmie przetwarzane są dokumenty w tak wielu językach. W związku z powyższym zaleca się ograniczenie liczby języków np.: do angielskiego i niemieckiego. Personalizacja ustawień OCR jest najważniejszym czynnikiem wpływającym na jego wydajność.

Na prędkość rozpoznawania ma wpływ wiele czynników. Uzyskanie najlepszych efektów możliwe jest poprzez odpowiednią konfigurację aplikacji w zależności od jakości i stopnia skomplikowania dokumentu.

Program bez konieczności dokonywania manualnej korekty przeprowadzi proces rozpoznawania dokumentu, w którym treść jest odchylona od osi pionowej do około 2°. Przekroczenie tej wartości będzie wymagało od użytkownika dokonania korekty za pomocą funkcji Deskew.

Moduł Filtrów umożliwia dodanie w odpowiedniej kolejności kilku zdefiniowanych funkcji wpływających na jakość tekstu każdego wczytanego obrazu.

H-Liner – jest zaawansowanym algorytmem poszukiwania linii.

Technika rozpoznawania słownikowego jest mechanizmem podnoszącym skuteczność rozpoznawania tekstu poprzez porównywanie wyrazów ze słownikiem. Jest to praktyka, która potrafi zmodyfikować w znaczącym stopniu sens zdań poprzez zamianę słów. Niedopuszczalnym jest, aby w trakcie przetwarzania tekstu program OCR zmienił słowo np.: z sma11 na small. Działanie programów rozpoznających wyrazy w oparciu o metodę słownikową, związane jest z ich wewnętrznymi statystykami. Wpływać one mogą w mniejszym lub większym stopniu na zachowanie oryginalności przetworzonego dokumentu. W związku z tym, w silniku nie zostały zaimplementowane mechanizmy rozpoznawania słownikowego.
(wróć...)