Premetto che per evitare possibili problemi di compilazione, qualsiasi pacchetto che sono andato ad
installare lo ho fatto inserendo il sorgente e poi utilizzando Synaptic.
Vi espongo ora il problema.
Ho salvato sul disco in formato jpg, delle pagine di un documento (testo + grafici) copiate con uno scanner.
Con il programma "convert" da riga di comando, ho convertito queste pagine in un file "pdf".
(http://wiki.ubuntu-it.org/Grafica/ConvertireJpgInPdf)
Codice: Seleziona tutto
convert *.jpg prova.pdfal fine di poterlo sottolineare/modificare/copiare, mantenendo sempre il file in formato "pdf".
Ho installato allora il pacchetto "Tesseract", quindi il programma "ocrfeeder", ma anche seguendo
quanto riportato nel sito
http://git.gnome.org/browse/ocrfeeder/tree/README
non sono riuscito a raggiungere il mio obiettivo ???.
Ho povato anche ad usare il programma "Cuneiform" (https://help.ubuntu.com/community/OCR/) ed il relativo
script "pdfocr", ma quando lo eseguo si incastra e anche a distanza di 1 ora non mi porta a nessun risultato anche
se gli davo da riconoscere una sola pagina.
Non capisco se manca qualche pacchetto nei due casi, o se è meglio utilizzare qualche altro programma per raggiungere questo risultato.
Vi ringrazio fin d'ora.
nesm

