Pagina 1 di 1

Nuovo dizionario per tesseract

Inviato: venerdì 4 novembre 2011, 0:10
da brazoayeye
Salve, io devo fare un dizionario per una lingua che non esiste per tesseract (o vi sono altri ocr da shell validi?)

Ho visto questa guida: http://code.google.com/p/tesseract-ocr/ ... Tesseract2

L'ho letta ma non ci ho capito molto: la prima parte riguarda il far leggere a tesseract le lettere mentre l'ultima è orientata ad aggiungere un dizionario?

Ho fatto l'elenco delle parole che si possono incontrare, e ho fatto 2 file TXT (diviso in frequenti e non frequenti). Una volta che ho eseguito i comandi

Codice: Seleziona tutto

wordlist2dawg frequent_words_list freq-dawg
wordlist2dawg words_list word-dawg
mi crea i due file, ma poi come faccio ad usare quelli al posto del dizionario inglese di default?

Se utilizzo fogli scritti con una macchina da scrivere mi conviene fare completamente il training? In tal caso avrei bisogno di alcune istruzioni in italiano XD