विएतओसीआर टेसेरक्ट ओसीआर इंजन का एक जावा में बना जीयूआई फ्रंटएण्ड है , जो सामान्य फॉर्मेट की छवियों और कई-पेज वाली छवियों के अक्षर पहचानने में मदद करता है . इस प्रोग्राम में पोस्टप्रोसेसिंग है जिससे ओसीआर प्रक्रिया से होने वाले कई सामान्य गलतियाँ सुधारी जा सकती है, जिससे सफलता की दर बढ़ जाती है . प्रोग्राम को कॉन्सोल एप्लीकेशन के रूप में कमांड लाइन से भी चलाया जा सकता है .
अब बैच प्रोसेसिंग भी सपोर्टेड है . प्रोग्राम एक वाच फोल्डर को नयी छवि फाइलों के लिए चेक करता है औए उन्हें स्वतः ओसीआर करके रिकग्निशन की आउटपुट को आउटपुट फोल्डर में सहेजता है .
जावा रनटाइम एनवायरनमेंट 8 या उसके बादका.
टेसेरक्ट 3.04आरसी विंडोज़ एक्सीक्यूटिबल इस प्रोग्राम के साथ बण्डल किया गया है . टेसेरक्ट के अन्य लैंग्वेज डेटा पैक, जिनके नाम आईएसओ639-3 कोड्स से शुरू होते हैं, tessdata
सबडाइरेक्टरी में रखे जाने चाहिए .
लिनक्स के लिए, टेसेरक्ट और इसके लैंग्वेज डेटा पैकेज Graphics (universe) रिपोसिटरी में हैं. इनको सेनेप्टिक या निम्न कमांड से इनस्टॉल किया जा सकता है .
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-hin
फाइलें क्रमशः /usr/bin
और /usr/share/tesseract-ocr/tessdata
में रखी जायेंगी . दूसरी तरफ, अगर टेसेरक्ट को सोर्स से बिल्ड और इनस्टॉल किया जाएगा तो, वे /usr/local/bin
और /usr/local/share/tessdata
में रखी जायेंगी
export TESSDATA_PREFIX=/usr/local/share/
अन्य प्लेटफार्म के लिए, कृपया टेसेरक्ट विकी पेज देखें ..
विएतओसीआर चुने हुए लैंग्वेज पैक को डाउनलोड और इनस्टॉल करने की सुविधा Download Language Data मेनू आइटम द्वारा प्रदान करता है . tessdata
फोल्डर की लोकेशन के अनुसार, अगर डाउनलोड किया हुआ डेटा सिस्टम फोल्डर जैसे कि, लिनक्स में /usr
या विंडोज में C:\Program Files
में है, तो डाउनलोड किये डेटा को इंस्टाल करने के लिए आप को रूट या एडमिन के रूप में प्रोग्राम चलाना पडेगा .
विंडोज में स्कैनिंग सपोर्ट विंडोज इमेज एक्वज़िशन लाइब्रेरी v2.0 द्वारा प्रदान किया जाता है जिसके लिए विंडोज एक्सपी सर्विस पैक 1 (एसपी1) या नए की आवशयकता है . यह लाइब्रेरी विंडोज विस्टा और 7 के साथ स्वतः आती है . विंडोज एक्सपी में डब्ल्यूआईए लाइब्रेरी इनस्टॉल करने के लिए wiaaut.dll
फाइल को अपने System32
डाइरेक्टरी (जो कि अधिकतर C:\Windows\System32
) में पायी जाती है, कॉपी करें और कमांड लाइन से चलायें .
regsvr32 C:\Windows\System32\wiaaut.dll
लिनक्स में, स्कैनिंग के लिए SANE पैकेज इंस्टाल करना आवश्यक है .
sudo apt-get install libsane sane sane-utils libsane-extras xsane
पीडीऍफ़ सपोर्ट GPL Ghostscript द्वारा मिल सकता है . लाइब्रेरी इंस्टाल करने के बाद, एप्रोप्रियेट एनवायरनमेंट वेरिएबल को सेट करके कृपया पक्का करें कि शेयर्ड लाइब्रेरी ऑब्जेक्ट (gsdll32.dll
या libgs.so
) आपके सर्च पाथ में है . विंडोज में जीएस वर्शन 9.20 के लिए, निम्न लाइन को Path
के अंत में जोड़ें, (ये वैल्यू कंट्रोल पैनल > सिस्टम > एडवांस्ड टैब > एनवायरनमेंट वेरिएबल में पाई जाएगी).
लिनक्स में :
;C:\Program Files\gs\gs9.20\bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
जहां /usr/lib
, libgs.so
में libgs.so.9.20
को लिंक दिया गया है .
स्पेलचेक सुविधा हन्स्पेल्ल द्वारा उपलब्ध है , जिसके
शब्दकोश की (.aff
, .dic
) फाइलें विएतओसीआर के dict
फोल्डर में डालनी चाहियें. user.dic
एक UTF-8-एन्कोडिंग वाली फाइल है जिसमे कस्टम शब्दों की सूची डाली जा सकती है, हर लाइन में एक शब्द .
लिनक्स में, हनस्पेल और इसके शब्दकोशों को सिनेप्टिक या apt
द्वारा निम्न तरीके से इंस्टाल किया जा सकता है :
sudo apt-get install hunspell hunspell-hi-in
प्रोग्राम चलाने के लिए :
java -jar VietOCR.jar
नोट: अगर आपको आउट-ऑफ़-मेमोरी एक्सेप्शन मिले तो जार के बजाय ocr
स्क्रिप्ट फाइल चलायें ..
वियतनामी लैंग्वेज डेटा टाइम्स न्यू रोमन, एरियल, वेर्दाना और कुरियर न्यू फ़ॉन्ट्स से बनाया गया है . जिन छवियों के फॉन्ट ग्लिफ इनसे मिलते जुलते हैं उनके रिकग्निशन का अच्छा चांस रहेगा . उन छवियों को ओसीआर करने के लिए जिनके फॉन्ट ग्लिफ इनसे अलग हैं, टेसेरक्ट को उन टाइपफेसेस का लैंग्वेज डेटा बनाने के लिए ट्रेनिंग की ज़रूरत पड़ेगी. लेटेस्ट वर्शन के साथ कुछ VNI और TCVN3 (ABC) फ़ॉन्ट्स का लैंग्वेज डेटा भी दिया गया है .
ओसीआर की जाने वाली छवियों को कम से कम 200 डीपीआई (डॉट पर इंच) से 400 डीपीआई रिसोल्यूशन तक मोनोक्रोम (ब्लैक एंड वाइट) या ग्रेस्केल में स्कैन करना चाहिए . ज्यादा ऊंचे रिसोल्यूशन पर स्कैन करने से पहचान में बेहतर सफलता मिलेगी ऐसा ज़रूरी नही है . अभी वियतनामी के लिए एक्यूरेसी 97% तक हो सकती है और हो सकता है की टेसेरक्ट की अगली रिलीस में ये और बढ़ जाए . फिर भी वास्तविक दर स्कैन् की हुई छवि की गुणवत्ता पर काफी निर्भर करती है . स्कैनिंग के लिए टिपिकल सेटिंग है 300 डीपीआई और ब्लैकएंडवाइट के लिए 1 बीपीपी (बिट पर पिक्स़ल) या ग्रेस्केल के लिए 8 बीपीपी अनकंप्रेस्ड टिफ या पीएनजी फॉर्मेट .
स्क्रीनशॉट मोड कम रिसोल्युशन की छवियो, जैसे कि स्क्रीन प्रिंट, को 300 डीपीआई तक रिस्केल करके ज्यादा बेहतर रिकग्निशन देता है .
बिल्ट-इन टेक्स्ट पोस्टप्रोसेसिंग अल्गोरिथम के साथ साथ आप UTF-8-encoded tab-delimited x.DangAmbigs.txt
टेक्स्ट फाइल द्वारा अपनी कस्टम टेक्स्ट रिप्लेसमेंट स्कीम भी बना सकते हैं, जहां x ISO639-3 भाषा कोड है . दोनों सादे और Regex पाठ प्रतिस्थापन समर्थन कर रहे हैं।.
आप टेसेरक्ट का व्यवहार बदलने के लिए, इनिट-ओन्ली और नॉन-इनिट कंट्रोल पैरामीटर्स को क्रमशः tessdata/configs/tess_configs
और tess_configvars
फाइलों में डाल सकते हैं.
कुछ बिल्ट-इन औजार भी उपलब्ध हैं जिनसे सुविधाजनक ओसीआर करने के लिए अलग छवियों या पीडीऍफ़ फाइलों को जोड़ कर एक बनाया जा सकता है या बहुत से पेजों वाली छवियों या पीडीऍफ़ फाइलों को, जिनसे आउट-ऑफ़-मेमोरी एक्सेप्शन हो सकता है, विभाजित कर छोटा बनाया जा सकता है .
पहचानने में गलतियों को तीन श्रेणियों में विभाजित किया जा सकता है . कई गलतियाँ लैटर केस से सम्बंधित हैं, उदाहरण के लिए hOa, nhắC — इनको पॉपुलर यूनिकोड टेक्स्ट एडिटरों द्वारा आसानी से ठीक किया जा सकता है . अन्य कई गलतियाँ ओसीआर प्रक्रिया के फलस्वरूप हैं जैसे कि गलत मात्राएँ, या मिलतेजुलते रूप वाला दूसरा कोई लैटर — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. ये सब भी स्पेल चेकर प्रोग्रामों द्वारा आसानी से ठीक किये जा सकते हैं . बिल्ट-इन पोस्टप्रोसेसिंग फंक्शन से उपरलिखित कई गलतियाँ ठीक की जा सकती हैं .
आखिरी तरह की गलतियाँ पहचानने में सबसे मुश्किल है क्योंकि ये सेमांटिक हैं, मतलब की ये शब्द शब्दकोष में पाए जायेंगे पर इस कॉन्टेक्स्ट में उनका प्रयोग गलत है जैसे कि tinh – tình, vân – vấn.ऎसी गलतियों को एडिटर द्वारा पढ़ कर ओरिजिनल छवि के अनुरूप सही करने की आवश्यकता होगी .
निम्न तरीका बताता है कि बिल्ट-इन फंक्शनलिटी से पहेल दो तरह की ओसीआर त्रुटियों को किस तरह सुधारा जाय .
ऊपर लिखी प्रक्रिया से अधिकतर सामान्य त्रुटियाँ हटाई जा सकती हैं, बाकी सेमंटिक त्रुटियाँ थोड़ी हैं, पर उन्हें दूर कर डॉक्यूमेंट को ओरिजिनल स्कैन्ड डॉक्यूमेंट जैसा बनाने के लिए, ह्यूमन एडिटर को पढ़ कर गलतियाँ सुधारनी होंगी, अगर चाहिए तो.
अगर कोई प्रश्न हैं तो विएतओसीआर फोरम. में पोस्ट करें .