Pdf -> riconoscimento Ocr del testo nel file Pdf

Installazione, configurazione e uso di programmi e strumenti.
nesm
Prode Principiante
Messaggi: 62
Iscrizione: lunedì 23 novembre 2009, 17:05

Pdf -> riconoscimento Ocr del testo nel file Pdf

Messaggio da nesm »

Salve a tutti. E' da poco che utilizzo Ubuntu per cui non sò se posso aver commesso degli errori.
Premetto che per evitare possibili problemi di compilazione, qualsiasi pacchetto che sono andato ad
installare lo ho fatto inserendo il sorgente e poi utilizzando Synaptic.

Vi espongo ora il problema.
Ho salvato sul disco in formato jpg, delle pagine di un documento (testo + grafici) copiate con uno scanner.
Con il programma "convert" da riga di comando, ho convertito queste pagine in un file "pdf".
(http://wiki.ubuntu-it.org/Grafica/ConvertireJpgInPdf)

Codice: Seleziona tutto

convert *.jpg prova.pdf
Mi domando se esiste un programma che mi permetteva di riconoscere il testo all'interno del file "prova.pdf"
al fine di poterlo sottolineare/modificare/copiare, mantenendo sempre il file in formato "pdf".
Ho installato allora il pacchetto "Tesseract", quindi il programma "ocrfeeder", ma anche seguendo
quanto riportato nel sito
http://git.gnome.org/browse/ocrfeeder/tree/README
non sono riuscito a raggiungere il mio obiettivo  ???.
Ho povato anche ad usare il programma "Cuneiform" (https://help.ubuntu.com/community/OCR/) ed il relativo
script "pdfocr", ma quando lo eseguo si incastra e anche a distanza di 1 ora non mi porta a nessun risultato anche
se gli davo da riconoscere una sola pagina.
Non capisco se manca qualche pacchetto nei due casi, o se è meglio utilizzare qualche altro programma per raggiungere questo risultato.
Vi ringrazio fin d'ora.
nesm
patel
Accecante Asceta
Accecante Asceta
Messaggi: 23782
Iscrizione: martedì 15 aprile 2008, 20:27
Località: Livorno

Re: Pdf -> riconoscimento Ocr del testo nel file Pdf

Messaggio da patel »

direttamente da jpg puoi usare scan2pdf, devi lavorarci un po' sulla messa a punto, ma funziona bene.
Un titolo ben azzeccato attira l'attenzione degli esperti in quel campo, fa risparmiare tempo a voi, aumenta la probabilità di successo.
nesm
Prode Principiante
Messaggi: 62
Iscrizione: lunedì 23 novembre 2009, 17:05

Re: Pdf -> riconoscimento Ocr del testo nel file Pdf

Messaggio da nesm »

Grazie mille.
Sono andando su google ma ho trovato solo questi 2 link:

http://downloads.phpnuke.org/en/downloa ... GRATIS.htm
http://ubuntuforums.org/showthread.php?p=5346857

nel primo caso non esiste la versione per Ubuntu.
Hai qualche link da passarmi per l'installazione?
Provo intanto ad installare la versione riportata nel secondo sito.
A presto. :)
patel
Accecante Asceta
Accecante Asceta
Messaggi: 23782
Iscrizione: martedì 15 aprile 2008, 20:27
Località: Livorno

Re: Pdf -> riconoscimento Ocr del testo nel file Pdf

Messaggio da patel »

non è più semplice dal gestore pacchetti ?
Un titolo ben azzeccato attira l'attenzione degli esperti in quel campo, fa risparmiare tempo a voi, aumenta la probabilità di successo.
Avatar utente
koji82
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 363
Iscrizione: martedì 19 gennaio 2010, 22:19
Desktop: Unity (ma anche Lxde)
Distribuzione: Ubuntu 12.04 LTS

Re: Pdf -> riconoscimento Ocr del testo nel file Pdf

Messaggio da koji82 »

Per modificare file pdf puoi usare anche openoffice che te li apre all'interno di Draw, oppure se vuoi aggiungere solo delle note e sottolineare puoi usare xournal che trovi nel software center
Scrivi risposta

Ritorna a “Applicazioni”

Chi c’è in linea

Visualizzano questa sezione: 0 utenti iscritti e 10 ospiti