Pdf -> riconoscimento Ocr del testo nel file Pdf
Inviato: mercoledì 12 gennaio 2011, 18:00
Salve a tutti. E' da poco che utilizzo Ubuntu per cui non sò se posso aver commesso degli errori.
Premetto che per evitare possibili problemi di compilazione, qualsiasi pacchetto che sono andato ad
installare lo ho fatto inserendo il sorgente e poi utilizzando Synaptic.
Vi espongo ora il problema.
Ho salvato sul disco in formato jpg, delle pagine di un documento (testo + grafici) copiate con uno scanner.
Con il programma "convert" da riga di comando, ho convertito queste pagine in un file "pdf".
(http://wiki.ubuntu-it.org/Grafica/ConvertireJpgInPdf)
Mi domando se esiste un programma che mi permetteva di riconoscere il testo all'interno del file "prova.pdf"
al fine di poterlo sottolineare/modificare/copiare, mantenendo sempre il file in formato "pdf".
Ho installato allora il pacchetto "Tesseract", quindi il programma "ocrfeeder", ma anche seguendo
quanto riportato nel sito
http://git.gnome.org/browse/ocrfeeder/tree/README
non sono riuscito a raggiungere il mio obiettivo ???.
Ho povato anche ad usare il programma "Cuneiform" (https://help.ubuntu.com/community/OCR/) ed il relativo
script "pdfocr", ma quando lo eseguo si incastra e anche a distanza di 1 ora non mi porta a nessun risultato anche
se gli davo da riconoscere una sola pagina.
Non capisco se manca qualche pacchetto nei due casi, o se è meglio utilizzare qualche altro programma per raggiungere questo risultato.
Vi ringrazio fin d'ora.
nesm
Premetto che per evitare possibili problemi di compilazione, qualsiasi pacchetto che sono andato ad
installare lo ho fatto inserendo il sorgente e poi utilizzando Synaptic.
Vi espongo ora il problema.
Ho salvato sul disco in formato jpg, delle pagine di un documento (testo + grafici) copiate con uno scanner.
Con il programma "convert" da riga di comando, ho convertito queste pagine in un file "pdf".
(http://wiki.ubuntu-it.org/Grafica/ConvertireJpgInPdf)
Codice: Seleziona tutto
convert *.jpg prova.pdfal fine di poterlo sottolineare/modificare/copiare, mantenendo sempre il file in formato "pdf".
Ho installato allora il pacchetto "Tesseract", quindi il programma "ocrfeeder", ma anche seguendo
quanto riportato nel sito
http://git.gnome.org/browse/ocrfeeder/tree/README
non sono riuscito a raggiungere il mio obiettivo ???.
Ho povato anche ad usare il programma "Cuneiform" (https://help.ubuntu.com/community/OCR/) ed il relativo
script "pdfocr", ma quando lo eseguo si incastra e anche a distanza di 1 ora non mi porta a nessun risultato anche
se gli davo da riconoscere una sola pagina.
Non capisco se manca qualche pacchetto nei due casi, o se è meglio utilizzare qualche altro programma per raggiungere questo risultato.
Vi ringrazio fin d'ora.
nesm