Kopiowanie treści dokumentu jest przetworzeniem obrazu dokumentu (utworzonym poprzez zapisanie w pliku graficznym skanowanej kartki papieru)
do edytowalnego tekstu, który może być zapisany w jednym z popularnych formatów plików tekstowych (procesorów tekstu).
W obecnej chwili rozpoznawanych jest 66 języków.
H-Liner – jest zaawansowanym algorytmem poszukiwania linii.
Technika rozpoznawania słownikowego jest mechanizmem podnoszącym skuteczność rozpoznawania tekstu poprzez porównywanie wyrazów ze słownikiem. Jest to praktyka, która potrafi zmodyfikować w znaczącym stopniu sens zdań poprzez zamianę słów. Niedopuszczalnym jest, aby w trakcie przetwarzania tekstu program OCR zmienił słowo np.: z sma11 na small. Działanie programów rozpoznających wyrazy w oparciu o metodę słownikową, związane jest z ich wewnętrznymi statystykami. Wpływać one mogą w mniejszym lub większym stopniu na zachowanie oryginalności przetworzonego dokumentu. W związku z tym, w silniku nie zostały zaimplementowane mechanizmy rozpoznawania słownikowego.
(wróć...)