Pagina 1 di 1

Pdf -> riconoscimento Ocr del testo nel file Pdf

Inviato: mercoledì 12 gennaio 2011, 18:00
da nesm
Salve a tutti. E' da poco che utilizzo Ubuntu per cui non sò se posso aver commesso degli errori.
Premetto che per evitare possibili problemi di compilazione, qualsiasi pacchetto che sono andato ad
installare lo ho fatto inserendo il sorgente e poi utilizzando Synaptic.

Vi espongo ora il problema.
Ho salvato sul disco in formato jpg, delle pagine di un documento (testo + grafici) copiate con uno scanner.
Con il programma "convert" da riga di comando, ho convertito queste pagine in un file "pdf".
(http://wiki.ubuntu-it.org/Grafica/ConvertireJpgInPdf)

Codice: Seleziona tutto

convert *.jpg prova.pdf
Mi domando se esiste un programma che mi permetteva di riconoscere il testo all'interno del file "prova.pdf"
al fine di poterlo sottolineare/modificare/copiare, mantenendo sempre il file in formato "pdf".
Ho installato allora il pacchetto "Tesseract", quindi il programma "ocrfeeder", ma anche seguendo
quanto riportato nel sito
http://git.gnome.org/browse/ocrfeeder/tree/README
non sono riuscito a raggiungere il mio obiettivo  ???.
Ho povato anche ad usare il programma "Cuneiform" (https://help.ubuntu.com/community/OCR/) ed il relativo
script "pdfocr", ma quando lo eseguo si incastra e anche a distanza di 1 ora non mi porta a nessun risultato anche
se gli davo da riconoscere una sola pagina.
Non capisco se manca qualche pacchetto nei due casi, o se è meglio utilizzare qualche altro programma per raggiungere questo risultato.
Vi ringrazio fin d'ora.
nesm

Re: Pdf -> riconoscimento Ocr del testo nel file Pdf

Inviato: mercoledì 12 gennaio 2011, 18:08
da patel
direttamente da jpg puoi usare scan2pdf, devi lavorarci un po' sulla messa a punto, ma funziona bene.

Re: Pdf -> riconoscimento Ocr del testo nel file Pdf

Inviato: martedì 18 gennaio 2011, 0:15
da nesm
Grazie mille.
Sono andando su google ma ho trovato solo questi 2 link:

http://downloads.phpnuke.org/en/downloa ... GRATIS.htm
http://ubuntuforums.org/showthread.php?p=5346857

nel primo caso non esiste la versione per Ubuntu.
Hai qualche link da passarmi per l'installazione?
Provo intanto ad installare la versione riportata nel secondo sito.
A presto. :)

Re: Pdf -> riconoscimento Ocr del testo nel file Pdf

Inviato: martedì 18 gennaio 2011, 8:17
da patel
non è più semplice dal gestore pacchetti ?

Re: Pdf -> riconoscimento Ocr del testo nel file Pdf

Inviato: martedì 18 gennaio 2011, 9:50
da koji82
Per modificare file pdf puoi usare anche openoffice che te li apre all'interno di Draw, oppure se vuoi aggiungere solo delle note e sottolineare puoi usare xournal che trovi nel software center