VietOCR je rozhraní Java pro systém rozpoznávání znaků Tesseract, poskytující podporu rozpoznávání znaků pro běžné formáty obrázků a vícestranové obrázky. Program obsahuje funkci dalšího zpracování, která pomáhá při opravování chyb, které se pravidelně objavují při procesu rozpoznávání, a tak se zvyšuje míra přesnosti výsledku. Program je též možné použít jako konzolovou aplikaci, kterou je možné spustit z příkazového řádku.
Podporováno je nyní i dávkové zpracování. Program sleduje nové obrázkové soubory ve sledované složce a automaticky je zpracuje pomocí OCR systému a výstup uloží do výstupní složky.
Java Runtime Environment 8 anebo vyšší verze.
Windows verze Tesseract 3.05 je součástí programu. Další
jazykové datové balíky pro Tesseract, které začínají kódem ISO639-3, by
měly být umístěny do podadresáře tessdata
.
V Ubuntu jsou Tesseract a jeho jazyková data součástí Graphics (universe) repository. Můžete je nainstalovat pomocí Synaptic anebo příkazu:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie
The files will be placed in /usr/bin
and /usr/share/tesseract-ocr/tessdata
,
respectively. On the other hand, if Tesseract is built and installed from the source,
they will be placed in /usr/local/bin
and /usr/local/share/tessdata
.
You may need to specify the directory of Tesseract executable from VietOCR's
Settings
menu. If the data is in a non-standard location, a soft link to
tessdata
may be required. You can also let VietOCR know the location of
tessdata
via the environment variable TESSDATA_PREFIX
:
export TESSDATA_PREFIX=/usr/local/share/
For other platforms, please consult Tesseract Wiki page.
VietOCR also provides support for downloading and installing selected language packs
via Download Language Data menu item. Depending on the location of the
tessdata
folder, you may be required to run the program as root or admin
to be able to install the downloaded data into the folder if it is inside a system
folder, such as in /usr
on Linux or C:\Program Files
on Windows.
Scanning support on Windows is provided via the Windows Image Acquisition Library
v2.0, which requires Windows XP Service Pack 1 (SP1) or later. The library comes
standard with Windows Vista and 7. To install the WIA Library on Windows XP, copy
the wiaaut.dll
file to your System32
directory (usually located
at C:\Windows\System32
) and run from the command line:
regsvr32 C:\Windows\System32\wiaaut.dll
Podpora PDF je dostupná přes projekt GPL Ghostscript. Po jeho instalaci se, prosím, ujistěte, že sdílená knihovna (gsdll32.dll anebo libgs.so) je v cestě (PATH), případně nastavte patřičnou proměnnou prostředí. Ve Windows přidejte následující řetězec hodnotě Path
sudo apt-get install libsane sane sane-utils libsane-extras xsane
PDF support is possible via GPL
Ghostscript. After installation of the library, please ensure the shared
library object (gsdll32.dll
or libgs.so
) is in the search path
by setting the appropriate environment variable. On Windows, append the following
to Path
value (accessible through Control Panel > System > Advanced
tab > Environment Variables) for GS version 9.20:
;C:\Program Files\gs\gs9.07\bin
;C:\Program Files\gs\gs9.20\bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
where in /usr/lib
, libgs.so
link to libgs.so.9.20
is located.
Spellcheck functionality is available through Hunspell, whose
dictionary files (.aff
, .dic
) should be placed in dict
folder of VietOCR. user.dic
is an UTF-8-encoded file which contains a list
of custom words, one word per line.
On Linux, Hunspell and its dictionaries can be installed by Synaptic or apt
,
as follows:
sudo apt-get install hunspell hunspell-en-us
java -jar VietOCR.jar
Pokud narazíte na problém „out-of-memory exception“, spusťte skript
ocr(.bat) namísto uvedeného příkazu.Obrázky určené pro rozpoznávání by měly být snímány v rozlišení aspoň 200 DPI (bodů na palec - dots per inch)
až 400 DPI v monochromatickém (černobílém) režimu anebo v odstínech šedé.
Snímání ve vyšším rozlišení nepřináší při rozpoznávání znaků vyšší přesnost.
Míra přesnosti však závisí hlavně na kvalitě nasnímaného obrázku. Typické nastavení
pro snímání je 300 DPI a 1 bpp (bit per pixel) černo-bílo anebo 8 bpp (odstíny
šedé) do nekomprimovaného TIFF anebo PNG formátu.: If you encounter out-of-memory exception, run ocr
script
file instead of using the .jar.
Vedle vestavěného algoritmu pro další zpracování textu si můžete přidat vlastní schéma nahrazování textu - textový soubor s názvem x.DangAmbigs.txt, kde x je kód jazyka ISO639-3.
Images to be OCRed should be scanned at resolution from at least 200 DPI (dot per inch) to 400 DPI in monochrome (black&white) or grayscale. Scanning at higher resolutions will not necessarily result in better recognition accuracy, which currently can be higher than 97% for Vietnamese, and the next release of Tesseract may improve it even further. Even so, the actual rates still depend greatly on the quality of the scanned image. The typical settings for scanning are 300 DPI and 1 bpp (bit per pixel) black&white or 8 bpp grayscale uncompressed TIFF or PNG format.
DALŠÍ ZPRACOVÁNÍ
In addition to the built-in text postprocessing algorithm, you can add your own
custom text replacement scheme via a UTF-8-encoded tab-delimited text file named x.DangAmbigs.txt
,
where x is the ISO639-3 language code. Both plain and Regex text replacements are supported.
You can put init-only and non-init control parameters in tessdata/configs/tess_configs
and tess_configvars
files, respectively, to modify Tesseract's
behaviour.
Some built-in tools are provided to merge several images or PDF files into a single one for convenient OCR operations, or to split a TIFF or PDF file into smaller ones if it contains too many pages, which can cause out-of-memory exceptions.
Další chyby jsou způsobeny procesem rozpoznávání - například chybějící diakritická znaménka, zaměněné znaky („1“ — „l“). Takové chyby je možné poměrně lehce opravit pomocí ověření pravopisu - kontroly překlepů (spellechecker). Vestavěné funkce pro další zpracování vám mohou pomoci s výše uvedeným chybami.
Seskupení řádků. Řádky je potřeba seskupit tak, aby odpovídali odstavcům, ke kterým patří (1 odstavec = 1 řádek). Použijte na to funkci Odstranit zalomení řádků, která se nachází v nabídce Formát. Taková operace není potřebná pro básně.
Zde jsou pokyny, jak opravit první dvě skupiny chyb vzniklých při rozpoznávání s pomocí zabudovaných funkcí:
-
-