Qualche problema invece c'è con l'ocr di testi italiani: va bene il corpo del testo, ma le note a pie' pagina, che sono in font più piccolo hanno una spaziatura sballata: quando va bene non c' spazio tra le parole, ma talvolta i caratteri si accavallano proprio e il testo diventa illeggibile.
Da notare che c'è il solito problema che andando su impostazioni il programma si lamenta che non ci sia qualcosa (il Package Kit), ma in realtà i files trainedata ci sono e al comando apposito ho questo output:
Codice: Seleziona tutto
sudo apt-get install tesseract-ocr-ita
[sudo] password for duns:
Reading package lists... Done
Building dependency tree
Reading state information... Done
tesseract-ocr-ita is already the newest version (1:4.00~git30-7274cfa-1).
Starting pkgProblemResolver with broken count: 0
Starting 2 pkgProblemResolver with broken count: 0
Done
0 upgraded, 0 newly installed, 0 to remove and 0 not upgraded.
EDIT
Del resto il problema non è che non riconosce l'italiano, ma che formatta male il testo quando dovrebbe usare un font più piccolo (nell'originale è più piccolo, come lo sono sempre le note a pie' pagina).
Anzi, si direbbe che "non potendo" cambiare dimensione del font, pensa come soluzione per far stare tutto nella pagina come nell'originale, di appiccicare le lettere le une alle altre.
Qualche suggerimento?
Grazie!