VietOCR

POPIS

VietOCR je Java rozhranie pre Tesseract OCR systém, poskytujúci podporu rozoznávania znakov pre bežné formáty obrázkov a viacstranové obrázky. Program obsahuje funkciu post-spracovanie, ktorá pomáha pri opravovaní chýb, ktoré sa pravidelne objavujú pri OCR procese a tak sa zvyšuje miera presnosti výsledku. Program je tiež možné použiť ako konzolovú aplikáciu, ktorú je možné spustiť z príkazového riadku.

Podporované je aj dávkové spracovanie. Program monitoruje nové obrázkové súbory v sledovanom priečinku a automaticky ich spracuje pomocou OCR systému a výstup uloží do výstupného priečinka.

SYSTÉMOVÉ POŽIADAVKY

Java Runtime Environment 8 alebo vyššia verzia.

INŠTALÁCIA

Windows veriza Tesseract 3.05 je súčasťou programu. Ďalšie jazykové dátové balíky pre Tesseract, ktoré začínajú s ISO639-3 kódom, by mali byť umiestnené do podriečinka tessdata.

V Ubuntu sú Tesseract a jeho jazykové dáta súčasťou Graphics (universe) repository. Môžete ich nainštalovať pomocou Synaptic alebo príkazu:

sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-slk

Súbory budú umiestnené do /usr/bin resp. /usr/share/tesseract-ocr/tessdata. Pokiaľ si Tesseract skompilujete sami zo zdrojových kódov, nainštaluje sa do /usr/local/bin a /usr/local/share/tessdata. Z tohoto dôvodu môže byť potrebné nastaviť umiestnenie programu Tesseract vo VietOCR Nastaveniach. Ak sú dáta umiestnené neštandardne, je potrebné nalinkovať ich do tessdata. Tiež je možné použiť premennú prostredia TESSDATA_PREFIX na informovanie VietOCR, kde sú umiestnené dáta:export TESSDATA_PREFIX=/usr/local/share/

Informácie ohľadom inštalácie programu Tesseract na iných platformách hľadajte na Tesseract Wiki stránke.

VietOCR taktiež poskytuje podporu pre sťahovanie a inštaláciu vybraných jazykových balíčkov cez Stiahnuť jazyk Dáta položku menu. V závislosti na umiestnení tessdata zložky, môže byť potrebné spustiť program ako root alebo admin aby bolo možné nainštalovať stiahnutých dát do priečinka, ak je vnútri systému zložky, ako napríklad v /usr na Linuxe alebo C:\Program Files v systéme Windows.

Podpora skenovania je poskytovaná cez knižnicu Windows Image Acquisition Library v2.0, ktorá vyžaduje Windows XP Service Pack 1 (SP1) alebo vyššiu verziu. Táto knižnica je štandardnou súčasťou Windows Vista a 7. Inštaláciu na Windows XP urobte nasledovnými krokmi: skopírujte súbor wiaaut.dll do priečinka System32 (zvyčajne je to C:\Windows\System32) a spustite nasledovný príkaz v príkazovom riadku:

regsvr32 C:\Windows\System32\wiaaut.dll

V systéme Linux, skenovanie vyžaduje inštaláciu balíčkov SANE:

sudo apt-get install libsane sane sane-utils libsane-extras xsane

PDF podpora je dostupná cez projekt GPL Ghostscript. Po jeho inštalácií sa prosím uistite, že zdieľaná knižnica (gsdll32.dll alebo libgs.so) je v ceste (PATH), prípadne nastavte patričnú premennú prostredia. Vo Windows, pridajte nasledovný reťazec hodnote Path (prístupná je cez Kontrolný panel > Systém > Pokročilé nastavenia > Premenné prostredia) pre GS verzie 9.20:

PDF podpora je možná vďaka GPL Ghostscript. Po nainštalovaní knižnice sa uistite, že zdieľaná knižnica (gsdll32.dll alebo libgs.so) je v ceste vyhľadávania, prípadne nastavte patričnú premennú prostredia. Vo Windows to znamená pridanie nasledovanej hodnoty premennej Path (dostupná cez Ovládací panel > Systém > Rozšírené systémové nastavenia > Premenné prostredia) pre GS verzie 9.20:

;C:\Program Files\gs\gs9.20\bin

;C:\Program Files\gs\gs9.20\bin

ak je odkaz libgs.so na libgs.so.9.20 umiestnený v /usr/lib.

kde v /usr/lib, libgs.so odkazuje na umiestnenie libgs.so.9.20.

V Ubuntu je Hunspell a jeho slovníky možné nainštalovať cez Synaptic alebo apt, takto:

sudo apt-get install hunspell hunspell-en-us

INŠTRUKCIE

Program spustíte príkazom:

java -jar VietOCR.jar

Poznámka: Ak narazíte na problém „out-of-memory exception“, spustite ocr(.bat) skript namiesto uvedeného príkazu.Obrázky určené na OCR by mali byť skenované v rozlíšení aspoň 200 DPI (dot per inch) až 400 DPI v monochromatickom (čierno&bielom) režime alebo v odtieňoch šedej. Skenovanie vo vyššom rozlíšení neprináša vyššiu presnosť pri rozoznávaní znakov. Miera presnosti však závisí hlavne na kvalite naskenovaného obrázka. Typické nastavenie pre skenovanie je 300 DPI a 1 bpp (bit per pixel) čierno-bielo alebo 8 bpp (odtiene šedej) do nekomprimovaného TIFF alebo PNG formátu.

Nový Režim snímky obrazovky ponúka lepšiu mieru presnosti pre obrázky s nízkym rozlíšením ako napr. snímky obrazovky, pomocou zväčšenia rozlíšenia na 300 DPI.

Okrem vstavaného algoritmu pre post-spracovania textu, môžete si pridať vlastnú schému nahradzovania textu textový súbor s názvom UTF-8-encoded tab-delimited x.DangAmbigs.txt, kde x je ISO639-3 kód jazyka. Obaja prostý a Regex nahradenie textu sú podporované.

Niektoré vstavané nástroje poskytujú funkcie spájania niekoľkých obrázkov alebo PDF súborov do jedného (pre pohodlnejšie rozoznávanie znakov), alebo delenie PDF súborov na menšie, ak sú príliš veľké a spôsobujú „out-of-memory exceptions“.

POST-SPRACOVANIE

Chyby pri rozoznávaní znakov sa dajú rozdeliť do troch kategórií. Časté sú zámeny veľkosti písmen napr. „O“ — „o“, „Z“ — „z“, „S“ — „s“. Tieto chyby sa dajú opraviť pomocou populárnych Unicode textových editorov.

Ďalšie chyby sú spôsobené OCR procesom - napríklad chýbajúce diakritické znamienka, zamenené znaky („1“ — „l“). Takéto chyby je možné pomerne ľahko opraviť pomocou kontroly preklepov (spellechecker). Vstavané funkcie pre post-spracovanie vám môžu pomôcť s vyššie uvedeným chybami.

Poslednou kategóriou sú chyby, ktoré je ťažké detegovať, pretože sú to sémantické chyby, čo znamená, že dané slová sa nachádzajú v slovníku, ale sú chybné z hľadiska kontextu napr. „súd“ — „sud“ a pod. Tieto chyby si vyžadujú, aby ich opravil korektor manuálne podľa originálneho obrázka.

Tu sú inštrukcie, ako opraviť prvé dve kategórie OCR chýb s pomocou zabudovanej funkcie:

Zoskupenie riadkov. Riadky je potrebné zoskupiť tak, aby zodpovedali odsekom, ku ktorým patria (1 odsek = 1 riadok). Použite na to funkciu Odstrániť zalomenia riadkov, ktorá sa nachádza v menu Formát. Takáto operácia nie je potrebná pre básne.

  1. Vyberte Zmeniť veľkosť písmen, z ponuky Formát, a potom Prvé veľké na opravu chýb veľkosti písmen. Následne opravte ostatné chyby veľkosti písmen (napr. mená, názvy).
  2. Opravte preklepy s použitím Kontrola preklepov.
  3. Vyššie uvedené kroky by mali eliminovať väčšinu bežných chýb. Zostávajúce sémantické chyby však musí opraviť ľudský editor pozorným čítaním a korigovaním, aby bol výsledný dokument bez chýb.

Ak máte nejaké otázky, položte ich na VietOCR fórum.

Ak máte nejaké otázky, položte ich na VietOCR fórum.