VietOCR je Java rozhranie pre Tesseract OCR systém, poskytujúci podporu rozoznávania znakov pre bežné formáty obrázkov a viacstranové obrázky. Program obsahuje funkciu post-spracovanie, ktorá pomáha pri opravovaní chýb, ktoré sa pravidelne objavujú pri OCR procese a tak sa zvyšuje miera presnosti výsledku. Program je tiež možné použiť ako konzolovú aplikáciu, ktorú je možné spustiť z príkazového riadku.
Podporované je aj dávkové spracovanie. Program monitoruje nové obrázkové súbory v sledovanom priečinku a automaticky ich spracuje pomocou OCR systému a výstup uloží do výstupného priečinka.
Java Runtime Environment 8 alebo vyššia verzia.
Windows veriza Tesseract 3.05 je súčasťou programu. Ďalšie
jazykové dátové balíky pre Tesseract, ktoré začínajú s ISO639-3 kódom, by
mali byť umiestnené do podriečinka tessdata
.
V Ubuntu sú Tesseract a jeho jazykové dáta súčasťou Graphics (universe) repository. Môžete ich nainštalovať pomocou Synaptic alebo príkazu:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-slk
Súbory budú umiestnené do /usr/bin
resp. /usr/share/tesseract-ocr/tessdata
.
Pokiaľ si Tesseract skompilujete sami
zo zdrojových kódov, nainštaluje sa do /usr/local/bin
a /usr/local/share/tessdata
.
Z tohoto dôvodu môže byť potrebné nastaviť umiestnenie programu Tesseract vo VietOCR
Nastaveniach
. Ak sú dáta umiestnené neštandardne, je potrebné nalinkovať
ich do tessdata
. Tiež je možné použiť premennú prostredia TESSDATA_PREFIX
na informovanie VietOCR, kde sú umiestnené dáta:export TESSDATA_PREFIX=/usr/local/share/
Informácie ohľadom inštalácie programu Tesseract na iných platformách hľadajte na Tesseract Wiki stránke.
VietOCR taktiež poskytuje podporu pre sťahovanie a inštaláciu vybraných jazykových
balíčkov cez Stiahnuť jazyk Dáta položku menu. V závislosti na umiestnení
tessdata
zložky, môže byť potrebné spustiť program ako root alebo admin
aby bolo možné nainštalovať stiahnutých dát do priečinka, ak je vnútri systému zložky,
ako napríklad v /usr
na Linuxe alebo C:\Program Files
v systéme
Windows.
Podpora skenovania je poskytovaná cez knižnicu Windows Image Acquisition Library
v2.0, ktorá vyžaduje Windows XP Service Pack 1 (SP1) alebo vyššiu verziu. Táto knižnica
je štandardnou súčasťou Windows Vista a 7. Inštaláciu na Windows XP urobte nasledovnými
krokmi: skopírujte súbor wiaaut.dll
do priečinka System32
(zvyčajne
je to C:\Windows\System32
) a spustite nasledovný príkaz v príkazovom riadku:
regsvr32 C:\Windows\System32\wiaaut.dll
V systéme Linux, skenovanie vyžaduje inštaláciu balíčkov SANE:
sudo apt-get install libsane sane sane-utils libsane-extras xsane
PDF podpora je dostupná cez projekt GPL Ghostscript. Po jeho inštalácií sa prosím uistite, že zdieľaná knižnica (
gsdll32.dll
alebolibgs.so
) je v ceste (PATH), prípadne nastavte patričnú premennú prostredia. Vo Windows, pridajte nasledovný reťazec hodnotePath
(prístupná je cez Kontrolný panel > Systém > Pokročilé nastavenia > Premenné prostredia) pre GS verzie 9.20:
PDF podpora je možná vďaka GPL
Ghostscript. Po nainštalovaní knižnice sa uistite, že zdieľaná knižnica
(gsdll32.dll
alebo libgs.so
) je v ceste vyhľadávania, prípadne nastavte
patričnú premennú prostredia. Vo Windows to znamená pridanie nasledovanej hodnoty
premennej Path
(dostupná cez Ovládací panel > Systém >
Rozšírené systémové nastavenia > Premenné prostredia) pre GS verzie 9.20:
;C:\Program Files\gs\gs9.20\bin
;C:\Program Files\gs\gs9.20\bin
ak je odkaz
libgs.so
nalibgs.so.9.20
umiestnený v/usr/lib
.
kde v /usr/lib
, libgs.so
odkazuje na umiestnenie
libgs.so.9.20
.
V Ubuntu je Hunspell a jeho slovníky možné nainštalovať cez Synaptic alebo apt
,
takto:
sudo apt-get install hunspell hunspell-en-us
INŠTRUKCIE
java -jar VietOCR.jar
Poznámka: Ak narazíte na problém „out-of-memory exception“, spustite
ocr(.bat)
skript namiesto uvedeného príkazu.Obrázky určené na OCR by mali byť skenované v rozlíšení aspoň 200 DPI (dot per inch)
až 400 DPI v monochromatickom (čierno&bielom) režime alebo v odtieňoch šedej.
Skenovanie vo vyššom rozlíšení neprináša vyššiu presnosť pri rozoznávaní znakov.
Miera presnosti však závisí hlavne na kvalite naskenovaného obrázka. Typické nastavenie
pre skenovanie je 300 DPI a 1 bpp (bit per pixel) čierno-bielo alebo 8 bpp (odtiene
šedej) do nekomprimovaného TIFF alebo PNG formátu.
Nový Režim snímky obrazovky ponúka lepšiu mieru presnosti pre obrázky s nízkym rozlíšením ako napr. snímky obrazovky, pomocou zväčšenia rozlíšenia na 300 DPI.
Okrem vstavaného algoritmu pre post-spracovania textu, môžete si pridať vlastnú
schému nahradzovania textu textový súbor s názvom UTF-8-encoded tab-delimited x.DangAmbigs.txt
, kde
x je ISO639-3 kód jazyka. Obaja prostý a Regex nahradenie textu sú podporované.
Niektoré vstavané nástroje poskytujú funkcie spájania niekoľkých obrázkov alebo PDF súborov do jedného (pre pohodlnejšie rozoznávanie znakov), alebo delenie PDF súborov na menšie, ak sú príliš veľké a spôsobujú „out-of-memory exceptions“.
POST-SPRACOVANIE
Chyby pri rozoznávaní znakov sa dajú rozdeliť do troch kategórií. Časté sú zámeny veľkosti písmen napr. „O“ — „o“, „Z“ — „z“, „S“ — „s“. Tieto chyby sa dajú opraviť pomocou populárnych Unicode textových editorov.
Poslednou kategóriou sú chyby, ktoré je ťažké detegovať, pretože sú to sémantické chyby, čo znamená, že dané slová sa nachádzajú v slovníku, ale sú chybné z hľadiska kontextu napr. „súd“ — „sud“ a pod. Tieto chyby si vyžadujú, aby ich opravil korektor manuálne podľa originálneho obrázka.
Tu sú inštrukcie, ako opraviť prvé dve kategórie OCR chýb s pomocou zabudovanej funkcie:
Zoskupenie riadkov. Riadky je potrebné zoskupiť tak, aby zodpovedali odsekom, ku ktorým patria (1 odsek = 1 riadok). Použite na to funkciu Odstrániť zalomenia riadkov, ktorá sa nachádza v menu Formát. Takáto operácia nie je potrebná pre básne.
Ak máte nejaké otázky, položte ich na VietOCR fórum.
Ak máte nejaké otázky, položte ich na VietOCR fórum.