gimagereader: ocr perfetto, ma formattatazione giusta solo per l'inglese

Installazione, configurazione e uso di programmi e strumenti.
Scrivi risposta
Avatar utente
duns
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 629
Iscrizione: domenica 5 febbraio 2006, 15:28
Desktop: KDE plasma5
Distribuzione: Kubuntu 20.04 e KDE Neon
Sesso: Maschile

gimagereader: ocr perfetto, ma formattatazione giusta solo per l'inglese

Messaggio da duns »

Buongiorno a tutti. In questi ultimi giorni ho riprovato gImageReader e sono rimasto impressionato dai notevoli progressi che ha fatto: un pdf immagine in inglese lo ha scansionato perfettamente e lo ha reso un pdf searchable 10 volte più leggero dell'originale; certo il font non è esattamente lo stesso, e i titoli non hanno un formato diverso dal resto del testo, ma insomma ... non si può avere tutto. Oltretutto con LibreDraw si possono fare le modifiche più necessarie (a patto ovviamente che non siano troppe :D ).

Qualche problema invece c'è con l'ocr di testi italiani: va bene il corpo del testo, ma le note a pie' pagina, che sono in font più piccolo hanno una spaziatura sballata: quando va bene non c' spazio tra le parole, ma talvolta i caratteri si accavallano proprio e il testo diventa illeggibile.
Da notare che c'è il solito problema che andando su impostazioni il programma si lamenta che non ci sia qualcosa (il Package Kit), ma in realtà i files trainedata ci sono e al comando apposito ho questo output:

Codice: Seleziona tutto

sudo apt-get install tesseract-ocr-ita
[sudo] password for duns: 
Reading package lists... Done
Building dependency tree       
Reading state information... Done
tesseract-ocr-ita is already the newest version (1:4.00~git30-7274cfa-1).
Starting pkgProblemResolver with broken count: 0
Starting 2 pkgProblemResolver with broken count: 0
Done
0 upgraded, 0 newly installed, 0 to remove and 0 not upgraded.
Ovviamente ho installato tutti gli *spell* di italiano possibili su synaptic.

EDIT
Del resto il problema non è che non riconosce l'italiano, ma che formatta male il testo quando dovrebbe usare un font più piccolo (nell'originale è più piccolo, come lo sono sempre le note a pie' pagina).
Anzi, si direbbe che "non potendo" cambiare dimensione del font, pensa come soluzione per far stare tutto nella pagina come nell'originale, di appiccicare le lettere le une alle altre.

Qualche suggerimento?
Grazie!
Scrivi risposta

Ritorna a “Applicazioni”

Chi c’è in linea

Visualizzano questa sezione: 0 utenti iscritti e 27 ospiti